提取概览
Document AI 提供多种产品,可针对不同的用例从文档中提取信息:
Form Parser
Form Parser 会提取键值对 (KVP)、表格、选择标记(复选框)和通用字段,以增强提取功能并实现自动提取。它可以直接提取最多 11 个通用实体和复选框。您无需指定要使用表单解析器提取的字段(架构)。该模型会从文档的每个页面检测并返回感兴趣的实体。
自定义提取器
自定义提取器会提取您在架构中定义的实体,并提供三种建模选项:基于基础模型、基于自定义模型和基于自定义模板。由于基础模型在几乎没有训练数据的情况下也能取得理想的效果,因此我们建议您先从基础模型入手,然后根据需要尝试其他选项。基础模型可根据数据集中最多 5 个标记的文档进行零到几次的预测,并根据数据集中超过 10 个标记的文档进行微调预测。
训练方法 | 文档示例 | 文档布局变体 | 自由格式文本或段落 | 符合正式版质量要求的训练文档数量(取决于变异性) | |
---|---|---|---|---|---|
微调模型和基础模型(生成式 AI)。 | 合同、服务条款、账单、银行对账单、提货单、工资单。 | 从高到低(首选)。 | 高。 | 中等:0-50 多个文档。 | |
自定义模型。 | 模型。 | 不同年份或不同供应商的布局不同的类似表单(例如 W9)。 | 中低。 | 低。 | 高:10-100 多个文档。 |
模板。 | 采用固定布局的税表(例如表单 941 和 709)。 | 无。 | 低。 | 低(3 份文档)。 |
由于基础模型通常需要的训练文档较少,因此建议将其作为所有变量布局的首选。
布局解析器
布局解析器可将各种格式的文档转换为结构化表示法,使段落、表格、列表等内容以及标题、页眉和页脚等结构元素变得可访问,并创建感知上下文的区块,以便在各种生成式 AI 和发现应用中更轻松地检索信息。