获取摘要和提取内容

Vertex AI Search 可以在每次搜索响应中提供搜索摘要、提取式回答和提取式片段,从而增强搜索结果。

  • 摘要:摘要是搜索结果文档中的简短文本摘录,用于预览搜索结果的内容。 它包含可在界面中呈现的命中突出显示。摘要通常显示在每条搜索结果下方,以帮助最终用户评估相应结果的相关性和实用性。对于包含非结构化数据和网站数据(包括基本网站搜索和高级网站索引)的数据存储区,系统会显示摘要。

  • 提取式回答:提取式回答是指与每个搜索结果一起返回的逐字文本。直接从原始文档中提取。提取式答案通常显示在网页顶部附近,以便为最终用户提供与查询内容相关的简短答案。对于包含非结构化数据且具有高级网站索引编制功能的数据存储区,系统会提供提取式答案。

  • 提取式细分:提取式细分是指随每条搜索结果返回的逐字文本。提取式片段通常比提取式答案更冗长。提取的片段可以作为查询的答案显示,也可以用于执行后处理任务,还可以作为大型语言模型的输入来生成答案或新文本。对于包含非结构化数据且具有高级网站索引编制功能的数据存储区,可以使用提取式细分。

示例

以下示例有助于说明摘要、提取式答案和提取式片段之间的区别。

查询:“什么是 AI 应用?”

  • 代码段:

    为此,我们宣布推出全新的 AI 应用,让开发者能够以最快的速度开始创建生成式应用,例如聊天机器人、...

  • 抽取式回答:

    借助 AI Applications,开发者可以快速发布全新体验,包括机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用的模板在几分钟或几小时内快速创建生成式应用。

  • 提取式片段:

    企业和政府也希望借助这项新的 AI 技术,让客户、合作伙伴和员工之间的互动更加有效且富有成效。为此,我们宣布推出全新的 AI 应用。

    借助 AI Applications,开发者可以快速发布全新体验,包括机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用的模板在几分钟或几小时内快速创建生成式应用。借助 AI 应用,开发者还可以:

    • 结合组织数据和信息检索技术来提供相关答案。
    • 搜索并回复,而不仅仅是文本。
    • 将自然对话与结构化流程相结合。
    • 不要只是提供信息,还要促成交易。

准备工作

根据您拥有的应用类型,完成以下前提条件:

片段

摘要是从每个搜索结果文档中提取的一小段原文。它们包含粗体 HTML 标记中的命中突出显示,用于在界面中呈现搜索结果的预览。通常,摘要会以预览文本的形式显示在搜索结果下方,帮助最终用户决定点击该搜索结果是否有用。

摘要适用于网站搜索和非结构化搜索。

获取代码段

如需获取代码段,请执行以下操作:

  1. 发送包含 ContentSearchSpec.SnippetSpec 并将 returnSnippet 设置为 true 的搜索请求。

    以下 SnippetSpec 示例指定了可以为每条搜索结果返回摘要。

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet:如果设置为 true,则返回摘要。
  2. 从搜索响应中获取摘要。系统会在 derivedStructData.snippets 中随每个搜索结果返回摘要。

    在此示例中,文档作为搜索响应中的结果之一返回,结果中包含以粗体突出显示的匹配项的摘要:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet:包含为文档搜索结果生成的摘要。 命中突出显示包含在 HTML 粗体标记中。
    • snippet_status:如果生成了摘要,则此字段会以 SUCCESS 的形式返回。如果未生成任何摘要,则此字段会返回 NO_SNIPPET_AVAILABLE

抽取式答案

提取式回答是指从文档中逐字提取的一段文本。当文档在搜索响应中作为搜索结果返回时,相关提取式答案可以与该结果一起返回。

提取式答案可以是搜索结果文档中提取的文本,例如段落、表格或项目符号列表。提取式答案比提取式片段短。

在需要精确的逐字逐句的回答,而不是改述的摘要时,可以使用提取式回答来代替总结式回答。

对于包含非结构化数据且具有高级网站索引编制功能的数据存储区,系统会提供提取式答案。

获取抽取式答案

如需获取抽取式答案,请执行以下操作:

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveAnswerCount 的搜索请求。

    以下 extractiveContentSpec 示例指定了可以为每个搜索结果返回答案。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount:要为每个搜索结果返回的提取式答案的数量。默认值为 0,最大值为 5。
  2. 从搜索响应中获取提取式答案。提取式答案会随每个搜索结果以 extractive_answers 形式返回。

    在此示例中,某个文档作为搜索响应中的结果之一返回,其中包含提取式答案:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案是从哪里提取的。
    • content:提取式答案的内容。

提取式细分

提取式片段是指从搜索结果文档中逐字提取的一段文本。提取式片段与提取式答案类似,但提取式片段通常更完整、更详细。通常,提取的片段会用作您自己的 LLM 的输入,以生成答案或新文本。

提取式摘要可以是多个段落,包括表格和项目符号列表等格式化文本。

提取型细分受众群适用于具有非结构化数据和高级网站索引编制功能的数据存储区。

提取型细分选项

对于提取式摘要,您可以使用以下选项:

  • 提取式摘要的数量:您可以指定为每个搜索结果返回最多 10 个提取式摘要。

  • 相关性得分:相关性得分基于查询与提取的细分之间的相似性。您可以指定返回具有相关性得分的提取式摘要段落。分数范围为 -1.0(相关性较低)到 1.0(相关性较高)。启用相关性得分可能会增加延迟时间。

  • 相邻片段:您可以设置 numPreviousSegmentsnumNextSegments,以获取相关片段之前和之后最多 3 个片段。相邻的片段可以为相关片段添加背景信息并提高准确性。

    启用相邻细分可能会增加延迟时间。

获取提取式摘要

以下步骤展示了如何获取非结构化数据的提取式摘要。 您可以按照类似的步骤获取网站数据的提取型细分。

  1. 发送使用 ContentSearchSpec.extractiveContentSpec 指定 maxExtractiveSegmentCount 的搜索请求。

    以下 extractiveContentSpec 示例指定了每个搜索结果可以返回一个片段。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount:要为每个搜索结果返回的提取片段数量。默认值为 0,最大值为 10。

    其他选项:

    • returnExtractiveSegmentScore:设置为 true 可在返回每个片段时同时返回相关性得分。
    • numPreviousSegments:在相关细分之前要返回的相邻细分的数量。默认值为 0,最大值为 3。使用相邻的细分可能会增加延迟时间。
    • numNextSegments:相关片段之后要返回的相邻片段的数量。默认值为 0,最大值为 3。使用相邻的细分可能会增加延迟时间。

    如需详细了解这些选项,请参阅提取式分段选项

  2. 从搜索响应中获取细分。系统会在每次搜索结果中通过 extractive_segments 返回细分。

    在此示例中,文档作为搜索响应中的结果之一返回,结果中包含一个细分:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber:如果可以从文档中提取页码,此字段会指明答案是从哪里提取的。
    • content:提取段落的内容。

后续步骤