データストアで高度なウェブサイト インデックス登録が有効になっている場合は、サイトマップを送信して使用し、データストア内のウェブページのインデックス登録と更新を行うことができます。この機能は、XML サイトマップとサイトマップ インデックスのみをサポートしています。
このページでは、サイトマップまたはサイトマップ インデックスを送信して、サイトマップ ベースのインデックス登録と更新をトリガーする方法について説明します。サイトマップを使用せずに自動更新と手動更新を理解して実装するには、ウェブページを更新するをご覧ください。
また、このページでは、データストアでサイトマップを表示する方法や、サイトマップを削除する方法についても説明します。
サイトマップベースの更新のコンセプト
以下に、開始時に役立つ主なコンセプトと用語をご紹介します。
サイトマップ プロトコル: Vertex AI Search がサポートするすべてのサイトマップとサイトマップ インデックスは、サイトマップ プロトコルに準拠する必要があります。
サイトマップ: サイトマップは UTF-8 でエンコードされた XML ファイルです。このファイルには、ウェブサイト内のウェブページとファイルの URL のリストが含まれています。また、ウェブページの最終更新日や、ウェブサイト内の他のウェブページに対するクローラによるウェブページの優先度など、その他の重要な情報も含まれている場合があります。サイトマップ プロトコルによると、1 つのサイトマップに含めることができる URL の最大数は 50,000 件で、最大サイズは 50 MB です。
サイトマップ インデックス: サイトマップの URL の数またはサイズが上限を超える場合は、複数のサイトマップを作成し、それらのサイトマップをサイトマップ インデックス ファイルに記載できます。サイトマップ プロトコルによると、1 つのサイトマップ インデックスにネストできるサイトマップの最大数は 50,000 個で、最大サイズは 50 MB です。
1 つ以上のサイトマップ、1 つ以上のサイトマップ インデックス、またはサイトマップとサイトマップ インデックスの組み合わせを Vertex AI Search に送信できます。
サイトマップまたはサイトマップ インデックスを送信すると、次のアクションがトリガーされます。
データストア インデックスに含まれる URL のインデックス登録。
- サイトマップのみを更新する場合、このリストには、データストアに含まれる URL パターンに一致するサイトマップまたはサイトマップ インデックス内の URL のみが含まれます。
- 組み合わせ更新の場合、このリストには自動更新プロセスで検出されたすべての URL が含まれます。
この 2 つの更新プロセスについて詳しくは、ウェブサイトのデータストアの更新方法とサイトマップのみの更新をご覧ください。
サイトマップに追加、削除、更新された URL の毎日の更新。更新された URL の例としては、サイトマップ内の URL の
lastmod
フィールドを更新した場合などがあります。変更されていない URL を 14 日ごとに定期的に更新します。
ウェブサイトのデータストアの更新方法
データストアにサイトマップ ベースの更新を組み込むには、次のいずれかの方法を選択できます。
- サイトマップのみの更新: 初期インデックス登録と自動更新を無効にして、サイトマップ ベースの更新のみを使用します。
- 組み合わせ更新: サイトマップ ベースの更新を初期インデックス登録と自動更新で使用します。
選択した更新方法に関係なく、データストア インデックス内の特定のウェブページはいつでも手動で更新できます。
サイトマップのみの更新
ウェブサイト データストアを作成するときは、データストアのインデックスに含めるウェブページの URL パターンを指定する必要があります。デフォルトでは、ウェブサイトのデータストアの作成が完了すると、Vertex AI Search はこれらのウェブページを含む初期インデックスを生成します。
ウェブサイトの高度なインデックス登録を使用するウェブサイト データストアの場合、初期インデックス登録プロセスは自動更新の一部です。初期インデックス登録プロセスでは、Google 検索で利用可能なすべての URL がインデックスに登録されます。これらの URL の初期の鮮度は、Google 検索で利用できる情報の鮮度を反映します。最初のインデックス登録後、自動更新プロセスは新しいページを検出し、ベストエフォート方式で更新します。このプロセスでは、必要以上の URL が検出されるため、ページが比較的古いものになったり、インデックスが肥大化したりする可能性があります。
代わりに、サイトマップのみの更新を実行することもできます。これは、次のような場合に便利です。
- 最新の状態に保たれたサイトマップがある。
- 大規模なウェブサイトがあり、インデックスに登録するウェブページをより細かく制御する必要がある。これにより、管理しやすいインデックスが作成されます。
- 追加または更新したページは毎日更新し、削除したページは削除する必要があります。これにより、サイトマップを反映した新しいインデックスが作成されます。
次の表は、データストア インデックスを更新するさまざまな方法を比較したものです。
更新方法 | 適合率 | 手動での介入 | 頻度 | 調査 |
---|---|---|---|---|
サイトマップに基づく更新 | そのとおりです。サイトマップ内の URL のみをインデックスに登録します。 | サイトマップまたはサイトマップ インデックスを送信した後は不要 | サイトマップで追加、削除、更新された URL については毎日。URL が変更されていない場合は 14 日間 | サイトマップで指定された範囲を超えない。 |
手動更新(再クロールとも呼ばれます) | そのとおりです。再クロール リクエストで指定された URL のみをインデックスに登録します。 | 必須 | オンデマンド | いいえ。 |
自動更新 | 正確ではありません。データストアはベスト エフォートで更新されます。 | 不要 | ランダムでベスト エフォート | はい。Google 検索で利用可能な URL 以外も検出します。 |
始める前に
サイトマップまたはサイトマップ インデックスを Vertex AI Search データストアに送信する前に:
サイトマップ プロトコルに従って、ウェブサイトのすべてのサイトマップを参照する XML サイトマップまたはサイトマップ インデックスを作成します。
- サイトマップの作成の基本を理解します。詳細については、サイトマップ ベースの更新のコンセプトとサイトマップを作成して送信するをご覧ください。
サイトマップまたはサイトマップ インデックスを Vertex AI Search データストアに送信する場合、Google 検索に送信する必要はありません。
インデックス登録するサイトマップ内のすべての URL は、データストアで確認済みの公開ドメインに属している必要があります。詳しくは、ウェブサイトのドメインを確認するをご覧ください。
ネストされたサイトマップ URI を含むサイトマップ URI またはサイトマップ インデックス URI は、一般公開されている必要があります。
ウェブサイトで
robots.txt
ファイルを使用している場合は、更新します。詳しくは、ウェブサイトのrobots.txt
ファイルを準備する方法をご覧ください。
サイトマップまたはサイトマップ インデックスをデータストアに送信する
データストアに含まれるウェブページのインデックス登録と更新をトリガーする手順は次のとおりです。
サイトマップのみの更新を行うか、他の方法と組み合わせて更新を行うかを決定します。
サイトマップのみを更新するには、この手順に沿って操作します。それ以外の場合は、次の手順に進みます。
初期インデックス登録と更新が行われている既存のデータストアは使用できません。
AdvancedSiteSearchConfig
構成を使用して、初期インデックス登録と自動更新をオフにして、新しいデータストアを作成する必要があります。REST
サイトマップの更新のみが有効になっているデータストアを作成します。これは、初期インデックスと自動更新をオフにすることで行われます。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
次のように置き換えます。
PROJECT_ID
: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID
: 作成する Vertex AI Search データストアの ID。この ID に使用できるのは、小文字、数字、アンダースコア、ハイフンのみです。DATA_STORE_DISPLAY_NAME
: 作成する Vertex AI Search データストアの表示名。
データストアに含めるサイトと除外するサイトの URL パターンを更新します。詳細については、ウェブサイトのコンテンツを使用してデータストアを作成するをご覧ください。
データストアに含まれるウェブページのドメインの所有権を証明します。
サイトマップのみの更新と組み合わせた更新のどちらを選択した場合でも、
sitemaps.create
メソッドを使用して、サイトマップまたはサイトマップ インデックスの URI をデータストアに送信します。REST
サイトマップまたはサイトマップ インデックスを送信します。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
次のように置き換えます。
PROJECT_ID
: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID
: Vertex AI Search データストアの ID。SITEMAP_URI
: 送信する個々のサイトマップまたはサイトマップ インデックスの公開 URI。サイトマップ インデックスを送信する場合は、サイトマップ インデックスの URI を送信するだけで十分です。Vertex AI Search は、サイトマップ インデックス内にネストされたすべてのサイトマップに含まれる URL を自動的にインデックス登録します。
サイトマップまたはサイトマップ インデックスをデータストアに送信すると、Vertex AI Search は次の処理をトリガーします。
- サイトマップ内の対象 URL(データストアに含まれる URL)のインデックス登録。このプロセスが完了するまでに平均で数時間かかります。サイトマップが大きいほど、インデックス登録に時間がかかることがあります。
- 対象となる URL を含むウェブページが毎日更新されます。
サイトマップまたはサイトマップ インデックスの変更が更新に与える影響については、サイトマップとサイトマップ インデックスの変更をご覧ください。
データストアのサイトマップを表示します。
サイトマップとサイトマップ インデックスの変更
初回送信後、Vertex AI Search はサイトマップまたはサイトマップ インデックスの変更を毎日検出し、次のように処理します。
- サイトマップの変更:
- URL を追加する場合: データストアの含まれる URL パターンに一致する URL がインデックスに追加され、毎日更新されます。
- URL を削除した場合: 削除した URL がインデックスに登録されている場合は、インデックスから削除され、更新されなくなります。
- 既存の URL を更新する場合(たとえば、サイトマップ内の URL の
lastmod
フィールドを更新する場合): データストアの URL パターンに含まれる URL と一致する更新済みの URL はすべて更新されます。通常、更新後 24 時間以内に更新されます。
- サイトマップ インデックスの変更:
- サイトマップを追加すると、データストアの URL パターンに一致する新しいサイトマップ内の URL がインデックスに追加され、毎日更新されます。
- サイトマップを削除すると、データストアの URL パターンに一致する URL は更新されなくなります。ただし、インデックスには残ります。サイトマップとその URL をインデックスから削除するには、サイトマップとその URL をインデックスから削除するをご覧ください。
データストア内のサイトマップとサイトマップ インデックスを一覧表示する
データストア内のすべてのサイトマップとサイトマップ インデックスを一覧表示するには、sitemaps.fetch
メソッドを使用します。サイトマップ インデックスを送信した場合、このメソッドは個々のネストされたサイトマップではなく、サイトマップ インデックスを返します。データストアにサイトマップがない場合、このリクエストは空の JSON ファイルを返します。
REST
データストア内のサイトマップとサイトマップ インデックスを一覧表示します。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
次のように置き換えます。
PROJECT_ID
: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID
: Vertex AI Search データストアの ID。
データストアにサイトマップまたはサイトマップ インデックスが存在するかどうかを確認する
サイトマップまたはサイトマップ インデックスがデータストアに存在するかどうかを確認するには、sitemaps.fetch
メソッドを使用します。確認するサイトマップまたはサイトマップ インデックスがデータストアに送信されている場合、レスポンスにはサイトマップ名とサイトマップの URI が含まれます。サイトマップ インデックスを送信した場合は、サイトマップ インデックス内の個々のサイトマップを確認しても、正しい結果は返されません。
REST
データストアでサイトマップまたはサイトマップ インデックスを確認します。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
次のように置き換えます。
PROJECT_ID
: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID
: Vertex AI Search データストアの ID。SITEMAP_URI_N
: データストアで確認するサイトマップまたはサイトマップ インデックスの公開 URI。
データストアからサイトマップまたはサイトマップ インデックスを削除する
データストアからサイトマップを削除するには、sitemap.delete
メソッドを使用します。サイトマップを削除しても、その URL がインデックスから削除されることはありません。サイトマップとその URL をインデックスから削除するには、サイトマップとその URL をインデックスから削除するをご覧ください。
REST
サイトマップまたはサイトマップ インデックスを削除します。
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
次のように置き換えます。
PROJECT_ID
: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID
: Vertex AI Search データストアの ID。SITEMAP_ID
: サイトマップまたはサイトマップ インデックスを識別する一意の ID。この ID は、サイトマップまたはサイトマップ インデックスを送信したとき、またはデータストア内のサイトマップとサイトマップ インデックスを一覧表示したときのレスポンスの名前フィールドで確認できます。
サイトマップまたはサイトマップ インデックスとその URL をデータストア インデックスから削除する
サイトマップまたはサイトマップ インデックスとその URL をインデックスから削除する手順は次のとおりです。
すべての URL を削除して、データストアに送信されたサイトマップまたはサイトマップ インデックスを空にします。
サイトマップ インデックスをデータストアに送信した場合は、すべての URL を削除してネストされたサイトマップを空にし、サイトマップ インデックスからサイトマップを削除します。
Vertex AI Search がこれらの変更を処理し、データストアのインデックスから URL を削除するまで 48 時間待ちます。