如果您的数据存储区启用了高级网站索引编制,您可以提交和使用站点地图来编制和刷新数据存储区中的网页索引。此功能仅支持 XML 站点地图和站点地图索引。
本页介绍了如何提交站点地图或站点地图索引,以触发基于站点地图的索引编制和刷新。如需了解如何在不使用站点地图的情况下实现自动刷新和手动刷新,请参阅刷新网页。
此外,本页面还介绍了如何在数据存储区中查看网站地图或删除网站地图。
基于站点地图的刷新概念
以下是一些关键概念和术语,可帮助您快速上手:
站点地图协议:Vertex AI Search 支持的所有站点地图和站点地图索引都必须遵循站点地图协议。
站点地图:站点地图是采用 UTF-8 编码的 XML 文件,其中包含您网站中网页和文件的网址列表,以及其他重要但可选的信息,例如网页的上次修改日期,以及相对于您网站中其他网页的抓取工具对网页的优先级。根据站点地图协议,单个站点地图最多可包含 5 万个网址,且大小不得超过 50 MB。
站点地图索引:如果您的站点地图超出了网址数量上限或大小上限,您可以创建多个站点地图,并在站点地图索引文件中列出这些站点地图。根据站点地图协议,单个站点地图索引最多可以嵌套 5 万个站点地图,且大小不得超过 50 MB。
您可以向 Vertex AI Search 提交一个或多个站点地图、一个或多个站点地图索引,或站点地图和站点地图索引的组合。
当您向 Vertex AI Search 数据存储区提交站点地图或站点地图索引时,系统会触发以下操作:
在数据存储区索引中为包含的网址编入索引。
- 如果仅刷新站点地图,此列表中仅包含与数据存储区中包含的网址模式相符的站点地图或站点地图索引中的网址。
- 对于组合刷新,此列表包含自动刷新流程发现的所有网址。
如需详细了解这两种刷新流程,请参阅网站数据存储区刷新方法和仅网站地图刷新。
每日刷新包含的网址
网站数据存储区刷新方法
您可以选择以下任一方法在数据存储区中纳入基于站点地图的刷新功能:
- 仅使用站点地图刷新:通过关闭初始编入索引和自动刷新,仅使用基于站点地图的刷新。
- 组合刷新:将基于站点地图的刷新与初始索引编制和自动刷新结合使用。
无论您选择哪种刷新方法,都可以随时手动刷新数据存储区索引中的特定网页。
仅刷新站点地图
创建网站数据存储区时,您必须为要包含在数据存储区索引中的网页提供网址模式。默认情况下,当您完成创建网站数据存储区后,Vertex AI Search 会为这些包含的网页生成初始索引。
对于启用了高级网站编入索引的网站数据存储空间,初始编入索引过程属于自动刷新的一部分。初始索引编制流程会为 Google 搜索中提供的所有包含网址编制索引。这些网址的初始新鲜度与 Google 搜索中显示的新鲜度相同。初始编入索引后,自动刷新流程会发现新网页并尽最大努力对其进行刷新。这可能会导致网页相对过时,索引也更大,因为此过程会发现可能超出所需数量的网址。
您可以改为选择仅执行站点地图刷新,这在以下情况下非常有用:
- 您拥有维护良好且最新的站点地图。
- 您拥有一个大型网站,需要更严格地控制哪些网页要编入索引。这样可以生成更精简、更易于管理的索引。
- 您需要每天刷新已编入索引的网页。这会生成更新的索引。
下表比较了刷新数据存储区索引的不同方法:
刷新方法 | 精确率 | 手动干预 | 频率 | 发现 |
---|---|---|---|---|
基于站点地图的刷新 | 没错。仅编入站点地图中的网址。 | 提交站点地图或站点地图索引后,无需再提交 | 每天 | 不超出站点地图中指定的数量。 |
手动刷新(也称为重新抓取) | 没错。仅编入重新抓取请求中指定的网址。 | 必填 | 按需 | 不需要 |
自动刷新 | 不准确。系统会尽最大努力刷新数据存储区。 | 不需要 | 随机且尽力 | 是。发现 Google 搜索中未提供的网址。 |
准备工作
在将站点地图或站点地图索引提交到 Vertex AI Search 数据存储区之前,请执行以下操作:
- 根据站点地图协议创建一个 XML 站点地图或站点地图索引,其中引用您网站的所有站点地图。
- 了解构建站点地图的基础知识。如需了解详情,请参阅基于站点地图的刷新概念和构建和提交站点地图。
- 请注意,要将站点地图或站点地图索引提交到 Vertex AI Search 数据存储区,它们无需提交到 Google 搜索。
- 您站点地图中要编入索引的所有网址都必须属于在数据存储区中经过验证的公共网域。如需了解详情,请参阅验证网站域名。
- 站点地图 URI 或包含嵌套站点地图 URI 的站点地图索引 URI 必须是公开的。
向数据存储区提交站点地图或站点地图索引
如需触发对数据存储区中包含的网页进行索引编制和刷新,请按以下步骤操作:
决定是仅使用站点地图进行刷新,还是将站点地图与其他方法结合使用进行刷新。
如需仅刷新站点地图,请执行此步骤,否则请跳至下一步。
您无法使用已完成初始编制索引和刷新的现有数据存储区。您必须使用
AdvancedSiteSearchConfig
配置关闭初始编制索引和自动刷新,以创建新的数据存储区。REST
创建一个仅启用站点地图刷新的数据存储区。为此,请关闭初始索引和自动刷新。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
替换以下内容:
PROJECT_ID
:您的 Google Cloud 项目的 ID。DATA_STORE_ID
:您要创建的 Vertex AI Search 数据存储区的 ID。此 ID 只能包含小写字母、数字、下划线和连字符。DATA_STORE_DISPLAY_NAME
:您要创建的 Vertex AI Search 数据存储区的显示名称。
更新要包含和排除在数据存储区中的网站的网址模式。如需了解详情,请参阅使用网站内容创建数据存储区。
无论您选择仅站点地图刷新还是组合刷新,都可以使用
sitemaps.create
方法将站点地图或站点地图索引 URI 提交到数据存储区。REST
提交站点地图或站点地图索引。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
替换以下内容:
PROJECT_ID
:您的 Google Cloud 项目的 ID。DATA_STORE_ID
:Vertex AI Search 数据存储区的 ID。SITEMAP_URI
:您要提交的单个站内图或站内图索引的公开 URI。提交站点地图索引时,只需提交站点地图索引的 URI 即可。Vertex AI Search 会自动将站点地图索引中嵌套的所有站点地图中包含的网址编入索引。
您将网站地图或网站地图索引提交到数据存储区后,Vertex AI Search 会触发以下操作:
- 对站点地图中符合条件的网址(即包含在数据存储区中)进行编制索引。此过程可能需要几个小时才能完成。较大的站点地图可能需要更长时间才能编入索引。
- 系统会每天刷新包含符合条件网址的网页。
如需了解对站点地图或站点地图索引所做的修改对刷新有何影响,请参阅对站点地图和站点地图索引所做的更改。
查看数据存储区中的站内图。
站点地图和站点地图索引的变更
初次提交后,Vertex AI Search 会每天检测站点地图或站点地图索引中的修改,并以以下方式处理这些修改:
- 站点地图的更改:
- 添加网址时:与数据存储区包含的网址模式匹配的网址会添加到索引中,并每天刷新一次。
- 移除网址后:如果移除的网址已编入索引,则会从索引中移除,并且不会再刷新。
- 当您更新现有网址(例如,更新站点地图中网址的
lastmod
字段)时:系统会刷新与数据存储区包含的网址模式匹配的所有更新后的网址。刷新通常会在更新后的 24 小时内进行。
- 站点地图索引的更改:
- 添加站点地图后:新站点地图中与数据存储区包含的网址模式匹配的网址会添加到索引中,并每天刷新一次。
- 移除站点地图后:与数据存储区包含的网址模式匹配的网址将不再刷新。不过,它们仍会保留在索引中。如需从索引中移除站点地图及其网址,请参阅从索引中移除站点地图及其网址。
列出数据存储区中的站点地图和站点地图索引
如需列出数据存储区中的所有站点地图和站点地图索引,请使用 sitemaps.fetch
方法。如果您提交了站点地图索引,则此方法会返回站点地图索引,而不是各个嵌套站点地图。如果数据存储区中没有网站地图,此请求会返回一个空 JSON 文件。
REST
列出数据存储区中的站点地图和站点地图索引。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
替换以下内容:
PROJECT_ID
:您的 Google Cloud 项目的 ID。DATA_STORE_ID
:Vertex AI Search 数据存储区的 ID。
检查数据存储区中是否存在站点地图或站点地图索引
如需检查数据存储区中是否存在站点地图或站点地图索引,请使用 sitemaps.fetch
方法。如果您要检查的站点地图或站点地图索引已提交到数据存储区,则响应中会包含站点地图名称和站点地图的 URI。如果您提交了站点地图索引,则在站点地图索引中查找各个站点地图不会返回正确的结果。
REST
检查数据存储区中是否有站点地图或站点地图索引。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
替换以下内容:
PROJECT_ID
:您的 Google Cloud 项目的 ID。DATA_STORE_ID
:Vertex AI Search 数据存储区的 ID。SITEMAP_URI_N
:要检查数据存储区中的网站地图或网站地图索引的公开 URI。
从数据存储区中删除站点地图或站点地图索引
如需从数据存储区中删除站点地图,请使用 sitemap.delete
方法。删除站点地图不会从索引中移除其网址。如需从索引中移除站点地图及其网址,请参阅从索引中移除站点地图及其网址。
REST
删除站点地图或站点地图索引。
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
替换以下内容:
PROJECT_ID
:您的 Google Cloud 项目的 ID。DATA_STORE_ID
:Vertex AI Search 数据存储区的 ID。SITEMAP_ID
:用于标识站点地图或站点地图索引的唯一 ID。在提交站点地图或站点地图索引或在数据存储区中列出站点地图和站点地图索引时,您可以在响应的名称字段中找到此 ID。
从数据存储区索引中移除站点地图或站点地图索引及其网址
如需从索引中移除站点地图或站点地图索引及其网址,请按以下步骤操作:
通过移除其所有网址,清空提交到数据存储区的站点地图或站点地图索引。
如果您已向数据存储区提交站点地图索引,请移除所有网址以清空嵌套站点地图,并从站点地图索引中移除站点地图。
请等待 48 小时,以便 Vertex AI Search 处理这些更改并从数据存储区的索引中移除网址。