使用 Form Parser 处理文档

Form Parser 可提取键值对 (KVP)、表格、选择标记(例如复选框)、通用字段和文本,以增强和自动化文档处理。

如果应用场景涉及以下情况,可以考虑使用表单解析器,而不是其他解析器:

  • 处理结构化表单:它擅长从定义明确的表单中提取 KVP,这些表单看起来像带有标签的空白处供填写的常规表单,例如 name: __。表单解析器的预训练模型可针对姓名、日期和地址等常见字段提供高准确度。
  • 需要灵活的表格提取:表单解析器可从看起来像表格的简单表格(没有跨行或跨列的单元格)中提取数据。无需(也无法)进行训练。对于经过训练的表格提取,自定义提取器可与包含列(单元格)子字段的父字段搭配使用。
  • 需要高效性:避免构建和维护提取解析器,尤其是在处理大量且形式多样的提取任务时。

数据提取功能

Form Parser 功能包括:

  • KVP:这是指文档中的一组两项内容,即标签或键及其对应的数据(值)。您可以直接使用 KVP(如果键是一致的),也可以构建自定义逻辑来将不同的键解析为一致的结构化信息。

  • 通用实体:开箱即可解析文档中的 11 个不同字段。其中包括:

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • 文本和布局:使用我们最新的 OCR 引擎提取文本和布局信息。这包括数字 PDF 中的嵌入文本(仅限 v2.1)或图片中的文本。

  • 表格:检测并提取图片和 PDF 中的表格。

  • 复选框:一种高质量的选择标记检测器,可从图片和 PDF 输出中提取复选框作为 KVP,使用复选框附近最近的文本,并使用 valueType 指示复选框是已填充还是未填充。

语言和区域

  • 表单解析器 2.0 支持 200 多种语言。了解详情
  • 我们在 8 个区域提供功能支持。了解详情

模型版本

以下处理器版本与此功能兼容。如需了解详情,请参阅管理处理器版本

限制

  • 不支持 TIFF 的先前 JPEG 压缩。由 TIFF 版本 6.0 规范定义的 JPEG 封装类型。

  • 复选框模型不支持解析单选按钮。某些检测到的复选框可能没有对应的键。

  • 模型无法可靠地解析具有未填充值的 KVP,例如空白表单。

  • 某些语言的文档上的 KVP 解析质量可能不如拉丁语。

使用 Form Parser 处理文档

本快速入门介绍 Document AI 中的 Form Parser 功能。在本快速入门中,您将使用 Google Cloud 控制台设置 Google Cloud 项目和授权,创建 Form Parser,然后请求 Document AI 处理 PDF 表单。

了解如何:

  1. 在 Google Cloud 项目中启用 Document AI。

  2. 创建一个 Form Parser 处理器,该处理器可以从多种类型的文档识别和提取文本、键值对、表和通用实体。

  3. 使用处理器为示例文档添加注解。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

  8. 创建 Form Parser 处理器

    使用 Google Cloud 控制台创建 Form Parser 处理器。如需了解详情,请参阅创建和管理处理器

    1. 在 Google Cloud 控制台导航菜单中,点击 Document AI 并选择处理器库

      处理器库

    2. 处理器库中,搜索表单解析器,然后选择创建

      界面中的 Form Parser 选项

    3. 在侧边窗口中,输入处理器名称,例如 quickstart-form-processor

    4. 选择离您最近的区域。

    5. 点击创建按钮。

    系统会将您转到新表单解析器处理器的处理器详情页面。

    测试处理器

    创建处理器后,您可以向该处理器发送注解请求。

    1. 下载示例文档

      它是一个 PDF 文件,其中包含手写的医疗登记表示例。此文档存储在可公开访问的 Cloud Storage 存储桶中。

    2. 点击上传测试文档按钮,然后选择您刚刚下载的文档。

    3. 您现在看到的应该是表单解析器分析页面。您可以查看从文档中提取的 OCR 检测到的文本、键值对、表和通用实体。

      界面中的示例表单键值对 界面中的示例表单通用实体

    清理

    为避免产生不必要的 Google Cloud 费用,请使用Google Cloud console 删除不再需要的处理器和项目

    后续步骤