获取摘要和提取的内容

Vertex AI Search 可以提供搜索摘要、提取式答案以及 提取的细分,以增强您的结果。

  • 摘要:摘要是来自 搜索结果文档,用于提供搜索结果内容的预览。 其中包含可在界面中呈现的命中突出显示效果。摘要通常显示在每条搜索结果下方,可帮助最终用户评估相应搜索结果的相关性和实用性。摘要适用于包含非结构化数据和网站数据(基本网站搜索和高级网站索引)的数据存储空间。

  • 提取式回答:提取式回答是指随每个搜索结果一起返回的原文。它是直接从原始文档中提取的。提取式回答通常是 展示在网页顶部附近,以便为最终用户提供简短的回答 展示与用户查询的内容相关的搜索查询。提取式回答适用于包含非结构化数据且具有高级网站索引编制功能的数据存储区。

  • 提取细分:提取 是与每个搜索结果一起返回的逐字文本。一个 提取的句段通常比提取的回答更详细。 提取的细分可显示为查询的答案,也可用于 执行后处理任务,以及作为大型语言模型的输入, 生成答案或新文本。可使用提取式细分 适用于包含非结构化数据和高级网站索引编制功能的数据存储区。

示例

以下示例有助于说明摘要、 提取的回答和提取的片段。

询问:“什么是 Vertex AI Agent Builder?”

  • 代码段:

    为此,我们推出了全新的 Vertex AI Agent Builder,可让开发者快速着手创建聊天机器人、...

  • 抽样回答:

    借助 Vertex AI Agent Builder,开发者可以快速推出 包括聊天机器人、聊天界面、自定义搜索引擎、数字媒体, Google 助理等。开发者拥有对 Google 基础的 API 访问权限 并可以使用开箱即用的模板快速开始创建生成式 AI 模型, 。

  • 提取细分:

    企业和政府也希望客户、合作伙伴和员工 使互动更有效、更实用。接收者 我们宣布推出全新的 Vertex AI Agent Builder。

    借助 Vertex AI Agent Builder,开发者可以快速推出 包括聊天机器人、聊天界面、自定义搜索引擎、数字媒体, Google 助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用模板在数分钟或数小时内快速开始构建生成式应用。借助 Vertex AI Agent Builder,开发者可以 还会:

    • 结合使用组织数据和信息检索技术,提供相关答案。
    • 搜索和回复不仅仅是文字。
    • 将自然对话与结构化流程相结合。
    • 不要只提供信息,还要进行交易。

准备工作

根据您使用的应用类型,需满足以下前提条件:

代码段

摘要是从每条搜索结果文档中逐字提取的短文本。这些元素包括使用粗体 HTML 标记突出显示命中项,以便在界面中呈现搜索结果预览。通常情况下,摘要以预览文本的形式呈现 以方便最终用户决定是否点击该搜索 会很有用。

摘要适用于网站搜索和非结构化搜索。

获取摘要

如需获取摘要,请执行以下操作:

  1. 发送包含以下内容的搜索请求: ContentSearchSpec.SnippetSpec 并将 returnSnippet 设为 true。

    以下 SnippetSpec 示例指定 可为每个搜索结果返回摘要。

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet:如果设置为 true,则返回摘要。
  2. 获取搜索响应中的摘要。系统会在 derivedStructData.snippets 中随每个搜索结果返回摘要。

    在本示例中,一个文档作为 搜索响应中,将附带一个以粗体突出显示点击的代码段, 结果:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet:包含为文档搜索结果生成的摘要。 命中突出显示包含在粗体 HTML 标记中。
    • snippet_status:如果生成了摘要,此字段会作为 SUCCESS 返回。如果未生成摘要,此字段将返回为 NO_SNIPPET_AVAILABLE

抽样回答

提取式回答是从文档中逐字衍生的文本部分。时间 在搜索响应中将文档返回为搜索结果, 相关的提取答案。

提取式回答可以是从搜索结果文档中提取的段落、表格或项目符号列表等文本。提取式答案 短于提取细分

在准确的逐字答案优于重述式摘要的情况下,提取式回答可以用作摘要回答的替代方案。

提取式回答适用于包含非结构化数据和 高级网站索引编制。

获取抽样回答

如需获取抽样回答,请执行以下操作:

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveAnswerCount 的搜索请求。

    以下 extractiveContentSpec 示例指定 可针对每条搜索结果返回答案。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount:为每个搜索结果返回的提取式回答的数量。默认值为 0,最大值为 5。
  2. 从搜索响应中获取摘要型回答。提取式答案 extractive_answers 中为每个搜索结果返回的值。

    在搜索响应中作为结果之一返回的文档示例中,结果中包含提取式回答:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取来源。
    • content:提取式答案的内容。

提取细分

提取式句段是从 搜索结果文档。提取细分与提取 答案,但抽取式句段通常更完整 更详细。一般来说,您自己的 LLM 会将提取片段作为输入数据, 生成答案或新文本。

提取段落可以是多个段落,包括表格和项目符号列表等格式化文本。

提取式细分受众群适用于包含非结构化数据且启用了高级网站索引的数据存储区。

提取式细分选项

提取式片段提供以下选项:

  • 段数:您最多可以为每个搜索结果指定 10 个要返回的摘要段。

  • 相关性得分:相关性得分基于 提取的句段。您可以指定返回的摘要片段应附带相关性得分。得分介于 -1.0(不太相关)到 1.0 之间 (相关性更高)。开启相关性得分可能会增加延迟时间。

  • 相邻细分(预览版):您可以设置 numPreviousSegmentsnumNextSegments,以获取与相关细分相邻的最多 3 个细分。相邻的片段可以增加背景信息并提高准确性, 相关细分受众群

    启用相邻片段会增加延迟时间。

获取提取的细分

以下步骤显示了如何获取非结构化数据的提取细分。 您可以按照类似的步骤为网站数据获取提取式细分。

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 以指定 maxExtractiveSegmentCount

    以下 extractiveContentSpec 示例指定,系统可以为每个搜索结果返回一个细分。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount:要返回的提取细分数 。默认值为 0,最大值为 10。

    其他选项:

    • returnExtractiveSegmentScore:设为 true 即可返回 为每个细分返回相关性得分。
    • numPreviousSegments:在相关路段之前要返回的相邻路段的数量。默认值为 0,最大值为 3。使用相邻路段可能会增加延迟时间。
    • numNextSegments: 在相关细分受众群后返回。默认值为 0,最大值为 3。使用相邻路段可能会增加延迟时间。

    如需详细了解这些选项,请参阅提取式片段选项

  2. 从搜索响应中获取细分。系统会在 extractive_segments 中随每个搜索结果返回细分。

    在搜索响应中作为结果之一返回的文档示例中,结果中包含一个片段:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取来源。
    • content:摘要片段的内容。

后续步骤