应用和数据存储区简介

本页介绍了 Vertex AI Search 应用和数据存储区。如需了解 Vertex AI 代理数据存储区,请参阅 Vertex AI 代理数据存储区

借助 Vertex AI Search,您可以创建搜索或推荐应用,并将其连接到数据存储区。一个 Google Cloud 项目可以包含多个应用。

应用与数据存储区之间的关系

应用与数据存储区之间的关系取决于应用类型:

  • 宽泛搜索应用与数据存储区之间存在多对多关系。将多个数据存储区连接到单个通用搜索应用时,称为混合搜索。如需了解将搜索应用连接到多个数据存储区的限制,请参阅混合搜索简介

  • 通用推荐应用与其数据存储区之间是一对一的关系。

  • 媒体应用与其数据存储区之间存在多对一关系。一个应用只能连接到一个数据存储区,而给定的数据存储区可以连接到多个应用。例如,媒体搜索应用和媒体推荐应用可以共享一个数据存储区。

  • 医疗保健搜索应用与其数据存储区之间存在多对一关系。一个应用只能连接到一个数据存储区,而给定的数据存储区可以连接到多个应用。例如,面向患者的应用和面向提供商的应用可以连接到同一数据存储区。

    对于医疗保健数据的分批数据导入,系统会将数据导入应用中的数据存储区。对于医疗保健数据的流式数据导入(预览版),系统会将数据导入实体,这是一种位于数据连接器中的数据存储区。数据连接器也是一种位于应用内的数据存储区。

数据存储区与应用关联后,便无法断开关联。

应用创建和数据注入方法

创建应用和注入数据的方式取决于您拥有的数据类型:

  • 对于网站数据,您需要使用 Google Cloud 控制台(而非 API)创建应用并注入数据。

  • 对于结构化或非结构化数据,您可以使用 Google Cloud 控制台或 API。

  • 对于健康数据,您可以使用 Google Cloud 控制台或 API。

文档

每个数据存储区都包含一个或多个数据记录,称为文档。文档代表的内容因数据存储区中的数据类型而异:

  • 网站。文档是网页。

  • 结构化数据。文档是表格中的行或遵循特定架构的 JSON 记录。您可以自行提供此架构,也可以让 Vertex AI Agent Builder 从提取的数据中派生架构。

  • 媒体的结构化数据。文档是表格中的一行,或遵循特定于媒体的架构的 JSON 记录。这些文档与媒体内容(例如视频、新闻报道、音乐文件和播客)相关的记录。文档包含用于描述媒体内容项的信息,至少包括:标题、内容位置的 URI、类别、时长和发布日期。

  • 第三方数据源的结构化数据(预览版,支持许可名单)。文档是指特定于第三方数据源的实体,例如 Jira 问题或 Confluence 聊天室。

  • 非结构化数据。文档是指采用 HTML、嵌入文本的 PDF 或 TXT 格式的文件。预览版支持 PPTX 和 DOCX 格式。

  • Healthcare FHIR 数据。文档是受支持的 FHIR R4 资源。如需查看 Vertex AI Search 支持的 FHIR R4 资源列表,请参阅 Healthcare FHIR R4 数据架构参考文档

数据存储区和应用

Vertex AI Agent Builder 中有多种类型的数据存储区。一个数据存储区只能包含一种类型的数据。

网站数据

包含网站数据的数据存储区使用从公开网站编入索引的数据。您可以提供要包含在数据存储区中的一组网址格式。符合网址格式的网页称为包含网页。然后,您可以根据从所包含网页抓取的数据设置搜索或推荐功能。

例如,您可以提供网址格式(例如 yourexamplewebsite.com/faq/*yourexamplewebsite.com/events/*),并针对从符合该格式的网页抓取的数据启用搜索或推荐功能。这些数据包括文字、带有元数据标记的图片,以及其他结构化数据,例如 meta 标记、PageMap 属性和 schema.org 数据。

网站数据存储有两种类型:

  • 基本网站搜索

    • 针对包含的网站提供对现有 Google 搜索索引的搜索功能。
    • 无需域名验证。
  • 高级网站索引编制

    • 针对基于以下任一项生成的索引提供高级搜索功能:所包含网站的现有 Google 搜索索引。
      • Vertex AI Search 应用所有者可以通过提交网站地图并对其进行维护来控制要编入索引的网页。如需了解详情,请参阅使用站点地图编入索引和刷新网页。此过程可在不进行手动干预的情况下保持索引最新。
      • Vertex AI Search 应用所有者可以执行初始索引编制,以镜像 Google 搜索索引,然后根据需要重新抓取网站以扩大索引的覆盖面,从而确保索引保持最新状态。如需了解详情,请参阅刷新网页高级网站索引编制中列出了高级网站索引编制功能。
    • 要求 Vertex AI Search 数据存储区所有者验证所包含网站所属的网域。如需了解详情,请参阅验证网站网域
    • 提供向数据存储区架构添加结构化数据的功能。 网站包含非结构化数据,但您可以将 meta 标记、PageMap 属性和 schema.org 数据等形式的结构化数据添加到网页中。然后,您可以使用这些结构化数据修改数据存储区架构,如使用结构化数据进行高级网站索引编制中所述。

后续步骤

对于网站搜索:

对于推荐:

结构化数据

包含结构化数据的数据存储区可对结构化数据执行语义搜索或推荐操作。您可以从 BigQuery 或 Cloud Storage 导入数据。您还可以通过 API 手动上传结构化 JSON 数据。

例如,您可以为电子商务体验启用商品目录搜索或推荐功能,或为医生目录启用提供商搜索或推荐功能。

Vertex AI Agent Builder 会自动从您导入的数据中检测架构。您可以选择为数据提供架构。为数据提供架构通常可以提高结果质量。

后续步骤

对于一般搜索:

对于常规建议:

媒体的结构化数据

媒体应用只能连接到媒体数据存储区。媒体数据存储区是采用 Google 定义的架构或您自己的自定义架构(包含一组特定的 5 个媒体相关字段)的结构化数据存储区。如需详细了解架构,请参阅媒体文档和数据存储空间简介

例如,您可以为电影目录或新闻网站创建媒体推荐应用,以便为用户提供合适且个性化的建议。

除了媒体文档之外,媒体数据存储区还包含用户事件信息,可让 Vertex AI Search 量身定制推荐内容并搜索您的用户。媒体推荐应用需要用户事件,媒体搜索应用建议使用用户事件。如需了解用户事件,请参阅记录实时用户事件

后续步骤

适用于第三方数据存储空间的结构化数据

以下第三方数据源连接器在预览版中提供,且支持许可名单:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

来自这些第三方的数据被视为结构化数据。

设置新连接器时,您可以选择同步频率。您还可以选择要同步的实体。实体因来源而异,例如 Jira 中的“问题”,Confluence 中的“内容”和“聊天室”。系统会为每个实体创建一个唯一的数据存储区。实体数据存储区按连接器实例分组。

后续步骤

对于搜索广告系列:

对于推荐:

非结构化数据

非结构化数据存储区可对文档和图片等数据进行语义搜索或推荐。

非结构化数据以 HTML、嵌入文本的 PDF 和 TXT 格式存储支持文档。预览版支持 PPTX 和 DOCX 格式。

搜索功能会以 10 个网址的形式提供结果,并针对自然语言查询提供摘要回答。文档必须上传到具有适当访问权限的 Cloud Storage 存储桶。例如,金融机构可以针对其私有的金融研究出版物语料库启用搜索或推荐功能,生物技术公司可以针对其私有的医学研究代码库启用搜索或推荐功能。

后续步骤

对于搜索广告系列:

对于常规建议:

Healthcare FHIR 数据

一款医疗保健搜索应用使用从 Cloud Healthcare API FHIR 存储区导入的 FHIR R4 数据。如需查看 Vertex AI Search 支持的 FHIR R4 资源列表,请参阅 Healthcare FHIR R4 data schema reference。FHIR R4 数据存储区必须满足一些要求,才能用作 Vertex AI Search 数据存储区的数据源。如需了解详情,请参阅如何准备医疗保健 FHIR 数据以供提取。

后续步骤

混合搜索简介

您可以创建混合搜索应用,在其中将多个数据存储区连接到单个通用搜索应用。借助此功能,您可以使用一个应用跨多个数据源和数据类型进行搜索。

如需创建混合搜索应用,请在创建新的通用搜索应用时选择多个数据存储区。如果您在创建过程中未选择多个数据存储区,则日后将无法添加其他数据存储区。

获取搜索结果时,您可以搜索所有数据存储区,也可以过滤出来自单个数据存储区的结果。

存在以下限制:

  • 添加和移除数据存储区:
    • 如需为应用启用混合搜索,您必须在创建应用时将至少两个数据存储区连接到该应用。
    • 您可以向混合搜索应用添加或移除数据存储区,但该应用关联的数据存储区数量不得低于 2 个。
    • 如果您在创建应用时将单个数据存储区关联到搜索应用,则无法添加或移除该数据存储区。
  • 网站数据存储区需要启用高级网站索引编制功能,才能用于混合搜索。如需了解详情,请参阅高级网站索引编制
  • 不支持包含使用 BigQuery 导入的非结构化数据的数据存储区。
  • 混合搜索允许在搜索请求中使用以下字段:
    • query
    • pageSize
    • offset
    • dataStoreSpecs
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • 除了前面列出的字段之外,只有在搜索请求被过滤以从单个数据存储区获取结果时,混合搜索应用才支持以下字段。从多个数据存储区获取结果时,不支持这些参数:
    • facetSpec
  • 混合搜索允许在 dataStoreSpecs 中使用以下字段:
    • boostSpec
    • filter:如果同时为 SearchRequestdataStoreSpecs 指定了过滤条件,系统会将这两个过滤条件都应用于搜索结果
  • 混合应用支持对投放配置执行创建、读取、更新和删除 (CRUD) 操作。您只能在分发配置中添加或更新以下字段:
    • name
    • displayName
    • solutionType
    • genericConfig
      • contentSearchSpec
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • 混合搜索应用支持对以下控件执行 CRUD 操作:
    • boostAction
    • synonymACtion
  • 混合搜索应用不支持以下功能:
    • 过滤、重定向、忽略、替换和解除关联投放控制
    • 在搜索请求或广告投放配置中使用 contentSearchSpec.snippetSpec 的摘要
    • 跟进搜索