ウェブサイトの高度なインデックス登録では、データストアにインポートするウェブデータのサイズに基づいて、毎月データ ストレージ料金が発生します。ウェブデータをインポートする前にサイズの推定値を取得するには、estimateDataSize
メソッドを呼び出して、インポートするウェブページを指定します。estimateDataSize
メソッドは、データサイズの推定プロセスが完了するまで実行される長時間実行オペレーションです。指定するウェブページの数によっては、この処理に数分から 1 時間以上かかることがあります。ウェブデータのサイズを見積もったら、Vertex AI Agent Builder の料金ページ(データ インデックスの料金セクションを参照)または Google Cloud の料金計算ツール(Vertex AI Agent Builder を検索)を使用して、月次データ ストレージ費用を見積もることができます。
始める前に
ウェブデータをデータストアにインポートするときに含める(必要に応じて除外する)ウェブサイトの URL パターンを決定します。これらの URL パターンは、estimateDataSize
メソッドを呼び出すときに指定します。
手順
ウェブデータのサイズの推定値を取得する手順は次のとおりです。
estimateDataSize
メソッドを呼び出します。curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
以下を置き換えます。
PROJECT_ID
: プロジェクトの ID。URI_PATTERN_TO_INCLUDE
: データサイズの見積もりに含めるウェブサイトの URL パターン。URI_PATTERN_TO_EXCLUDE
:(省略可)データサイズの見積もりの対象から除外するウェブサイトの URL パターン。URI_PATTERN_TO_INCLUDE
とURI_PATTERN_TO_EXCLUDE
には、次のようなパターンを使用できます。- ウェブサイト全体:
www.mysite.com
- ウェブサイトの一部:
www.mysite.com/faq
- ドメイン全体:
mysite.com
または*.mysite.com
- ウェブサイト全体:
EXCLUSIVE_BOOLEAN
:(省略可)true
の場合、指定された URI パターンは、データサイズの推定から除外されるウェブページを表します。デフォルトはfalse
です。つまり、指定された URI パターンは、データサイズの推定に含まれるウェブページを表します。EXACT_MATCH_BOOLEAN
:(省略可)true
の場合、指定された URI パターンは、ウェブページとそのすべての子ではなく、単一のウェブページを表します。デフォルトはfalse
です。つまり、指定された URI パターンはウェブページとそのすべての子を表します。
出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
この出力には、長時間実行オペレーションの名前である
name
フィールドが含まれています。次の手順で使用するためにname
値を保存します。operations.get
メソッドをポーリングします。curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
OPERATION_NAME
は、前の手順で保存したname
値に置き換えます。オペレーション名は、長時間実行オペレーションを一覧表示して取得することもできます。各レスポンスを評価します。
レスポンスに
"done": true
が含まれていない場合、データサイズの推定プロセスは完了していません。ポーリングを続行します。出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
レスポンスに
"done": true
が含まれている場合、データサイズの推定プロセスは完了しています。次のステップで使用するために、レスポンスからDATA_SIZE_BYTES
値を保存します。出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
この出力には次の値が含まれます。
DATA_SIZE_BYTES
: ウェブデータの推定サイズ(バイト単位)。DOCUMENT_COUNT
: ウェブデータ内のウェブページの推定数。
前の手順で取得した
DATA_SIZE_BYTES
の値を 1,000,000,000 で割って、GB を取得します。次の手順で使用するため、この値を保存します。月間データ ストレージ費用の見積もりを取得するには:
Google Cloud の料金計算ツールに移動します。
[Add To Estimate] をクリックします。
Vertex AI Agent Builder
を検索し、[Vertex AI Agent Builder] ボックスをクリックします。[データ インデックス] ボックスに、前の手順で確認したウェブデータの推定サイズ(GB 単位)を入力します。
データ ストレージの推定費用については、[推定費用] ボックスをご覧ください。