在 Google Cloud 控制台中构建文档摘要器

您可以使用 Document AI 创建摘要器处理器,以对文档的内容进行汇总。您可以根据长度格式自定义输出。

以下是来自生成的实体的一些 JSON 输出示例:

{
  "type": "summary",
  "mentionText": " Superconductivity is a phenomenon in which a material conducts
  electricity with no resistance. It was discovered in 1911 by Dutch physicist Heike
  Kamerlingh Onnes. In 1986, a new class of materials was discovered that can superconduct
  at much higher temperatures. These materials are called high-temperature superconductors.
  They have the potential to revolutionize the way we use electricity. However,
  high-temperature superconductors are still very expensive to produce. Scientists
  are working on ways to make them more affordable.",
  "normalizedValue": {
    "text": " Superconductivity is a phenomenon in which a material conducts
    electricity with no resistance. It was discovered in 1911 by Dutch physicist
    Heike Kamerlingh Onnes. In 1986, a new class of materials was discovered that
    can superconduct at much higher temperatures. These materials are called
    high-temperature superconductors. They have the potential to revolutionize
    the way we use electricity. However, high-temperature superconductors are
    still very expensive to produce. Scientists are working on ways to make
    them more affordable."
  }
}

过程

在本快速入门中,您将创建文档摘要器处理器、上传示例文档以进行处理,然后创建自定义处理器版本以调整摘要结构。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

创建摘要器处理器

使用 Google Cloud 控制台创建摘要器处理器。如需了解详情,请参阅创建和管理处理器

  1. 在 Google Cloud 控制台的 Document AI 部分中,前往 Workbench 页面。

    Workbench

  2. 对于摘要器,请选择创建处理器summarizer-1

  3. 创建处理器菜单中,输入处理器的名称,例如 quickstart-summarizer

  4. 选择离您最近的区域。

  5. 选择创建

您的处理器已创建完成。

测试处理器

您位于刚刚创建的处理器的处理器概览页面。

summarizer-2

  1. 选择自定义和构建标签页,对处理器进行实验。

    summarizer-3

  2. 下载示例文档

    它是一个 PDF 文件,其中包含关于超导率的维基百科页面

  3. 选择上传测试文档,然后选择您刚刚下载的文档。

  4. 您现在位于摘要页面。您可以查看 OCR 检测到的文本和文档摘要。

    summarizer-4

  5. 长度和格式设置分别调整为适中项目符号,然后选择重写并观察结果。

  6. 返回自定义和构建页面。

部署处理器版本

如果您想在使用 API 处理文档时使用特定的摘要设置,请为这些设置创建处理器版本。

  1. 汇总设置设为您在上一页中使用的最后几个值。

  2. 选择创建新版本,以创建具有指定摘要设置的处理器版本。

  3. 输入处理器版本的名称(例如 quickstart-moderate-bulleted),然后选择创建版本

  4. 前往部署和使用标签页以查看部署状态。部署需要几分钟时间。

  5. 部署版本后,您可以将其设置为默认版本,也可以在使用 API 处理文档时提供版本 ID。

  6. 如需使用 Document AI API,请执行以下操作:

您已成功使用 Document AI 从文档中提取文本并对其进行总结。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

为避免产生不必要的 Google Cloud 费用,请使用 Google Cloud 控制台删除您不需要的处理器和项目

后续步骤