고급 웹사이트 색인 생성에서는 데이터 스토어로 가져오는 웹 데이터의 크기에 따라 월별 데이터 스토리지 요금이 발생합니다. 웹 데이터를 가져오기 전에 크기를 대략적으로 확인하려면 estimateDataSize
메서드를 호출하고 가져올 웹페이지를 지정하면 됩니다. estimateDataSize
메서드는 데이터 크기를 추정하는 프로세스가 완료될 때까지 실행되는 장기 실행 작업입니다. 지정하는 웹페이지 수에 따라 몇 분에서 1시간 넘게 걸릴 수 있습니다. 웹 데이터의 크기를 추정한 후 Vertex AI Agent Builder 가격 책정 페이지(데이터 색인 가격 책정 섹션 참고) 또는 Google Cloud 가격 계산기(Vertex AI Agent Builder 검색)를 사용하여 월별 데이터 스토리지 비용을 추정할 수 있습니다.
시작하기 전에
웹 데이터를 데이터 스토어로 가져올 때 포함할 웹사이트의 URL 패턴을 결정합니다(원하는 경우 제외할 수도 있음). estimateDataSize
메서드를 호출할 때 이러한 URL 패턴을 지정합니다.
절차
웹 데이터의 크기를 추정하려면 다음 단계를 따르세요.
estimateDataSize
메서드를 호출합니다.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 ID입니다.URI_PATTERN_TO_INCLUDE
: 데이터 크기 추정치에 포함할 웹사이트의 URL 패턴입니다.URI_PATTERN_TO_EXCLUDE
: (선택사항) 데이터 크기 추정치에서 제외할 웹사이트의 URL 패턴입니다.URI_PATTERN_TO_INCLUDE
및URI_PATTERN_TO_EXCLUDE
의 경우 다음과 유사한 패턴을 사용할 수 있습니다.- 전체 웹사이트:
www.mysite.com
- 웹사이트 일부:
www.mysite.com/faq
- 전체 도메인:
mysite.com
또는*.mysite.com
- 전체 웹사이트:
EXCLUSIVE_BOOLEAN
: (선택사항)true
인 경우 제공된 URI 패턴은 데이터 크기 추정치에서 제외된 웹페이지를 나타냅니다. 기본값은false
이며, 이는 제공된 URI 패턴이 데이터 크기 추정치에 포함된 웹페이지를 나타낸다는 의미입니다.EXACT_MATCH_BOOLEAN
: (선택사항)true
인 경우 제공된 URI 패턴은 웹페이지와 모든 하위 요소가 아닌 단일 웹페이지를 나타냅니다. 기본값은false
이며, 이는 제공된 URI 패턴이 웹페이지와 모든 하위 요소를 나타낸다는 의미입니다.
출력은 다음과 비슷합니다.
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
이 출력에는 장기 실행 작업의 이름인
name
필드가 포함됩니다. 다음 단계에서 사용할name
값을 저장합니다.operations.get
메서드를 폴링합니다.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
OPERATION_NAME
을 이전 단계에서 저장한name
값으로 바꿉니다. 장기 실행 작업을 나열하여 작업 이름을 가져올 수도 있습니다.각 응답을 평가합니다.
응답에
"done": true
가 포함되지 않으면 데이터 크기를 추정하는 프로세스가 완료되지 않은 것입니다. 폴링을 계속합니다.출력은 다음과 비슷합니다.
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
응답에
"done": true
가 포함되면 데이터 크기를 추정하는 프로세스가 완료된 것입니다. 다음 단계에서 사용할 응답의DATA_SIZE_BYTES
값을 저장합니다.출력은 다음과 비슷합니다.
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
이 출력에는 다음 값이 포함됩니다.
DATA_SIZE_BYTES
: 웹 데이터의 예상 크기(바이트)입니다.DOCUMENT_COUNT
: 웹 데이터의 예상 웹페이지 수입니다.
이전 단계의
DATA_SIZE_BYTES
값을 1,000,000,000으로 나누어 GB 값을 얻습니다. 다음 단계를 위해 이 값을 저장합니다.월별 데이터 스토리지 비용을 추정하려면 다음 안내를 따르세요.
Google Cloud 가격 계산기로 이동합니다.
합산하여 추정을 클릭합니다.
Vertex AI Agent Builder
를 검색한 다음 Vertex AI Agent Builder 상자를 클릭합니다.데이터 색인 상자에 이전 단계에서 계산한 웹 데이터의 예상 크기(GB)를 입력합니다.
예상 데이터 스토리지 비용은 예상 비용 상자를 참고하세요.