本页介绍了 Vertex AI Search 应用和数据存储区。如需了解 Vertex AI Agents 数据存储区,请参阅 Vertex AI Agents 数据存储区。
借助 Vertex AI Search,您可以创建搜索或推荐应用,并将其连接到数据存储区。一个 Google Cloud 项目可以包含多个应用。
应用与数据存储区之间的关系
应用和数据存储区之间的关系取决于应用的类型:
一般搜索应用与数据存储区之间存在多对多关系。时间 多个数据存储区连接到单个通用搜索应用,这是 称为“混合搜索”。如需了解将搜索应用连接到多个数据存储区的限制,请参阅混合搜索简介。
通用推荐应用与其数据建立了一对一关联 。
媒体应用与其数据存储区之间存在多对一的关系。一个应用只能连接到一个数据存储区,而给定的数据存储区可以连接到多个应用。例如,媒体搜索 应用和媒体推荐应用可以共享数据存储区。
医疗保健搜索应用与其数据存储区之间存在多对一关系。一款应用 只能连接到一个数据存储区,而一个指定的数据存储区可以 已关联到多个应用。例如,面向患者的应用和面向提供商的应用可以连接到同一数据存储区。
对于医疗保健数据的分批数据导入,系统会将数据导入应用中的数据存储区。对于医疗保健数据的流式数据导入(预览版),系统会将数据导入实体,这是一种位于数据连接器中的数据存储区。数据连接器也是一种位于应用内的数据存储区。
数据存储区与应用连接后,无法断开连接。
应用创建和数据注入方法
如何创建应用和注入数据取决于您拥有的数据类型:
对于网站数据,您需要使用 Google Cloud 控制台(而不是 API)来创建 您的应用并注入数据
对于结构化或非结构化数据,您可以使用 Google Cloud 控制台或 API。
对于健康数据,您可以使用 Google Cloud 控制台或 API。
文档
每个数据存储区都包含一个或多个数据记录,称为文档。什么 根据数据存储区中数据类型的不同,输出的 ID 也不同:
网站。文档是网页。
结构化数据。文档是表格中的行或遵循特定架构的 JSON 记录。您可以自行提供此架构,也可以让 Vertex AI Agent Builder 从提取的数据中派生架构。
媒体的结构化数据。文档是指表或 JSON 中的一行 记录。通过 文档是指与媒体内容(如视频、新闻、 文章、音乐文件和播客。文档包含的信息 用于指定媒体内容,至少包括标题、内容位置的 URI、 类别、时长和可用日期
第三方数据源的结构化数据(预览版,支持许可名单)。文档是指特定于第三方数据源的实体,例如 Jira 问题或 Confluence 聊天室。
非结构化数据。文档是指 HTML 格式的文件、带有嵌入文本的 PDF 文件, 或 TXT 格式PPTX 和 DOCX 格式目前为预览版。
Healthcare FHIR 数据。文档是受支持的 FHIR R4 资源。如需了解 有关 Vertex AI Search 支持的功能,请参阅 Healthcare FHIR R4 数据架构参考文档。
数据存储区和应用
Vertex AI Agent Builder 中有多种数据存储区。一个数据存储区只能包含一种类型的数据。
网站数据
包含网站数据的数据存储区使用从公开网站编入索引的数据。您可以提供一组网域,并针对从这些网域抓取的数据设置搜索或推荐功能。这些数据包括文本、标记了元数据的图片和结构化数据。
例如,您可以提供 yourexamplewebsite.com/faq
和
yourexamplewebsite.com/events
,并启用搜索或推荐功能
这些网域上的内容
网站数据存储区有两种类型:
基本网站搜索:
- 针对所包含网站的现有 Google 搜索索引提供搜索功能。
- 无需验证域名。
高级网站索引编制功能:
- 基于根据内容生成的索引提供高级搜索功能 在所包含网站的现有 Google 搜索索引中。 然后,Vertex AI Agent Builder 应用所有者可以将索引覆盖范围扩展到 重新抓取网站,使其保持最新状态。有关 相关信息,请参阅刷新网页。 下面列出了高级网站索引编制的高级功能 高级网站索引编制功能。
- 需要域名验证。如需了解详情,请参阅验证网站域名。
- 提供将结构化数据添加到数据存储区架构的功能。
网站包含非结构化数据,但您可以在
meta
标记、PageMap 属性和 schema.org 数据的格式发送到您的 网页。然后,您可以使用此结构化数据修改该数据存储区 如 使用结构化数据实现高级网站索引编制。
后续步骤
对于网站搜索:
- 如需了解索引编制前提条件,请参阅如何为网站搜索准备数据。
- 使用网站内容创建数据存储区。
- 创建搜索应用。
对于推荐:
结构化数据
包含结构化数据的数据存储区支持语义搜索或推荐 结构化数据。您可以从 BigQuery 或 Cloud Storage 导入数据。您也可以通过 API。
例如,您可以为某商品清单启用搜索或推荐功能, 您的电子商务经验或医生名录,以用于搜索提供商或 建议。
Vertex AI Agent Builder 会根据您 导入。您可以选择为数据提供架构。提供架构 通常可提高结果质量。
后续步骤
对于宽泛搜索:
- 准备结构化数据以进行提取。
- 使用以下任一方法创建搜索数据存储区:
- 创建搜索应用。
对于一般性建议:
媒体的结构化数据
媒体应用只能连接到媒体数据存储区。媒体数据 存储区是采用 Google 定义架构或您自己的架构的结构化数据存储区 自定义架构。对于 请参阅关于媒体文档和数据 商店。
例如,您可以为电影目录或新闻网站创建媒体推荐应用,以便为用户提供合适且个性化的建议。
除了媒体文档,媒体数据存储区还 包含用户事件信息, 来自定义推荐和搜索用户。用户事件为必填项 适用于媒体推荐应用,建议用于媒体搜索应用。 如需了解用户事件,请参阅记录实时用户 事件。
后续步骤
适用于第三方数据存储空间的结构化数据
以下第三方数据源连接器目前为预览版, 许可名单:
- Confluence
- Jira
- Salesforce
- SharePoint Online
- Slack
来自这些第三方的数据被视为结构化数据。
在设置新连接器时,您可以选择同步频率。您还可以选择要同步哪些实体。实体因来源而异,例如 以及针对 Confluence 的内容和空间。唯一数据存储区是 每个实体创建的项目 ID。实体数据存储区按连接器实例分组。
后续步骤
对于搜索广告系列:
对于建议:
非结构化数据
非结构化数据存储区可对文档和图片等数据进行语义搜索或推荐。
非结构化数据存储支持以 HTML、带有嵌入式文本的 PDF 以及 TXT 格式。PPTX 和 DOCX 格式目前为预览版。
Google 搜索会以 10 个网址的形式提供搜索结果以及 自然语言查询。文档必须上传到具有适当访问权限的 Cloud Storage 存储桶。例如,金融机构可以针对其私有的金融研究出版物语料库启用搜索或推荐功能,生物技术公司可以针对其私有的医学研究代码库启用搜索或推荐功能。
后续步骤
对于搜索广告系列:
- 准备非结构化数据以进行提取。
- 使用以下方法之一创建搜索数据存储区:
- 为非结构化数据创建搜索数据存储区。
- 创建搜索应用。
对于常规建议:
Healthcare FHIR 数据
一款医疗保健搜索应用使用从 Cloud Healthcare API FHIR 存储区导入的 FHIR R4 数据。如需查看 Vertex AI Search 支持的 FHIR R4 资源列表,请参阅 Healthcare FHIR R4 data schema reference。FHIR R4 数据存储区必须满足一些要求,才能用作 Vertex AI Search 数据存储区的数据源。如需了解详情,请参阅如何准备医疗保健 FHIR 数据以供提取。
后续步骤
混合搜索简介
您可以创建混合搜索应用,在其中将多个数据存储区连接到单个通用搜索应用。借助此功能,您可以使用一个应用跨多个数据源和数据类型进行搜索。
如需构建混合搜索应用,请在创建新应用时选择多个数据存储区 通用搜索应用。如果您在创建过程中未选择多个数据存储区 之后您将无法添加其他数据存储区
获取搜索结果时,您可以搜索所有数据存储区,也可以过滤出来自单个数据存储区的结果。
存在以下限制:
- 添加和移除数据存储区:
- 若要为应用开启混合搜索,您必须连接至少两项数据 存储到该目录。
- 您可以在混合搜索应用中添加或移除数据存储区,但此应用 在任何时候都不能少于两个数据存储区。
- 如果您在创建应用时将单个数据存储区关联到搜索应用,则无法再添加或移除该数据存储区。
- 网站数据存储区需要启用高级网站索引编制功能,才能用于混合搜索。如需了解详情,请参阅 高级网站索引编制功能。
- 包含使用 导入的非结构化数据的数据存储区 不支持 BigQuery。
- 混合搜索允许在搜索请求中使用以下字段:
query
pageSize
offset
dataStoreSpec
pageToken
filter
spellCorrectionSpec
session
contentSearchSpec
:summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
- 除了前面列出的字段以外,还有以下字段:
仅当搜索请求被过滤到
从单个数据存储区中获取结果。在获取
来自多个数据存储区的结果:
facetSpec
- 混合搜索允许在
dataStoreSpec
中使用以下字段:filter
:如果同时为SearchRequest
和dataStoreSpec
,这两个过滤条件都会应用于搜索结果
- 混合应用支持对投放配置执行创建、读取、更新和删除 (CRUD) 操作。您只能在分发配置中添加或更新以下字段:
name
displayName
solutionType
genericConfig
:contentSearchSpec
:summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
boostControlIds
synonymsControlIds
onewaySynonymsControlIds
- 混合搜索应用支持对以下控件执行 CRUD 操作:
boostAction
synonymACtion
- 混合搜索应用不支持以下功能:
- 过滤、重定向、忽略、替换和取消关联投放 控件
- 在搜索请求或
contentSearchSpec.snippetSpec
服务配置 - 跟进搜索