使用 Form Parser 处理文档
Form Parser 会提取键值对 (KVP)、表格、选择标记(例如复选框)、通用字段和文本,以增强和自动执行文档处理。
如果应用场景涉及以下情况,可以考虑使用表单解析器而非其他解析器:
- 处理结构化表单:它擅长从结构良好的表单中提取 KVP,这些表单看起来像传统表单,其中包含要填充的标签空白,例如
name: __
。表单解析器的预训练模型可针对姓名、日期和地址等常见字段提供高准确性。 - 需要灵活的表格提取:表单解析器会从看起来像表格的简单表格(没有跨行或跨列的单元格)中提取数据。无需培训(也不可能进行培训)。对于经过训练的表格提取,自定义提取器可与包含列(单元格)子字段的父级字段搭配使用。
- 需要高效:避免构建和维护提取解析器,尤其是对于大量且形式多样的提取任务。
数据提取功能
Form Parser 功能包括:
KVP:这些是文档中一组包含两个项的集合,即标签或键及其对应的数据(值)。您可以直接使用键值对(如果键一致),也可以构建自定义逻辑,将各种键解析为一致的结构化信息。
通用实体:开箱即用,可解析文档中的 11 个不同字段。其中包括:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
文本和布局:使用我们最新的 OCR 引擎提取文本和布局信息。这包括数字 PDF 文件(仅限 v2.1)中的嵌入文本或图片中的文本。
表格:从图片和 PDF 中检测和提取表格。
复选框:一种高质量的选择标记检测器,可使用距离复选框最近的文字,将图片和 PDF 输出中的复选框提取为 KVP,并使用
valueType
指示复选框是已选中还是未选中。
语言和地区
模型版本
以下处理器版本与此功能兼容。如需了解详情,请参阅管理处理器版本。
限制
不支持对 TIFF 文件进行之前的 JPEG 压缩。TIFF 版本 6.0 规范定义的 JPEG 封装类型。
复选框模型不支持解析单选按钮。部分检测到的复选框可能没有对应的按键。
该模型无法可靠地解析包含未填充值的 KVP,例如空白表单。
与拉丁语相比,某些语言的文档的 KVP 解析质量可能会较低。
使用 Form Parser 处理文档
本快速入门介绍 Document AI 中的 Form Parser 功能。在本快速入门中,您将使用 Google Cloud 控制台设置 Google Cloud 项目和授权,创建 Form Parser,然后请求 Document AI 处理 PDF 表单。
了解如何:
在 Google Cloud 项目中启用 Document AI。
创建一个 Form Parser 处理器,该处理器可以从多种类型的文档识别和提取文本、键值对、表和通用实体。
使用处理器为示例文档添加注解。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
创建 Form Parser 处理器
使用 Google Cloud 控制台创建 Form Parser 处理器。如需了解详情,请参阅创建和管理处理器。
在 Google Cloud 控制台导航菜单中,点击 Document AI 并选择处理器库。
在处理器库中,
搜索 表单解析器,然后选择创建。在侧边窗口中,输入处理器名称,例如
quickstart-form-processor
。选择离您最近的区域。
点击创建按钮。
系统会将您转到新表单解析器处理器的处理器详情页面。
测试处理器
创建处理器后,您可以向该处理器发送注解请求。
-
它是一个 PDF 文件,其中包含手写的医疗登记表示例。此文档存储在可公开访问的 Cloud Storage 存储桶中。
点击
上传测试文档 按钮,然后选择您刚刚下载的文档。您现在看到的应该是表单解析器分析页面。您可以查看从文档中提取的 OCR 检测到的文本、键值对、表和通用实体。
清理
为避免产生不必要的 Google Cloud 费用,请使用 Google Cloud 控制台删除您不需要的处理器和项目。
后续步骤
- 查看处理器列表。