基于模板的提取

对于固定布局用例,只需 3 个训练文档和 3 个测试文档,即可训练出高性能的模型。加快 W9、1040、ACORD、调查问卷和调查问卷等基于模板的文档类型的开发速度,缩短将其投入生产阶段的时间。

数据集配置

必须使用文档数据集才能训练、追加训练或评估处理器版本。 Document AI 处理器会像人类一样从示例中学习。数据集有助于提升处理器性能稳定性。

训练数据集

如需改进模型及其准确性,请使用您的文档训练数据集。该模型由包含标准答案的文档组成。您至少需要 3 个文档才能训练新模型。

测试数据集

测试数据集是模型用来生成 F1 得分(准确性)的数据集。它由包含标准答案的文档组成。为了了解模型正确预测的频率,系统会使用标准答案将模型的预测结果(从模型中提取的字段)与正确答案进行比较。测试数据集应至少包含三份文档。

准备工作

如果尚未启用,请启用以下功能:

模板模式标签方面的最佳实践

正确标注是实现高准确度的最重要的步骤之一。模板模式采用了一些与其他训练模式不同的标记方法:

  • 在文档中,围绕您预计数据所在的整个区域(每个标签)绘制边界框,即使您要标记的训练文档中的标签为空也是如此。
  • 您可以为空字段添加标签,以便进行基于模板的训练。请勿为基于模型的训练标记空字段。

使用模板模式构建和评估自定义提取器

  1. 创建自定义提取器。创建处理器并按照最佳实践定义要提取的字段,这一点非常重要,因为它会影响提取质量。

  2. 设置数据集位置。选择默认选项文件夹(Google 管理)。系统可能会在创建处理器后不久自动执行此操作。

  3. 前往构建标签页,然后选择启用了自动添加标签功能的导入文档。添加的文档数量超过最低要求的 3 个后,基于模板的训练质量通常不会提高。不要添加更多数据,而应专注于非常准确地标记一小部分数据。

  4. 扩展边界框。模板模式的这些框应如下例所示。请遵循最佳实践来扩展边界框,以获得最佳结果。

  5. 训练模型。

    1. 选择训练新版本
    2. 为处理器版本命名。
    3. 前往显示高级选项,然后选择基于模板的模型方法。

    template-based-extraction-3

  6. 评估。

    1. 前往评估和测试
    2. 选择您刚刚训练的版本,然后选择查看完整评估

    template-based-extraction-4

    现在,您会看到整个文档和每个字段的 F1 得分、精确率和召回率等指标。1. 确定效果是否符合您的生产目标。如果不符合,请重新评估训练集和测试集。

  7. 将新版本设为默认版本。

    1. 前往管理版本
    2. 选择以查看设置菜单,然后选中设为默认

    template-based-extraction-5

    您的模型现已部署,发送到此处理器的文档将使用您的自定义版本。您希望评估模型的性能(详细了解如何执行此操作),以检查模型是否需要进一步训练。

评估参考

评估引擎可以执行完全匹配或模糊匹配。对于完全匹配,提取的值必须与标准答案完全匹配,否则会被计为错失。

存在细微差异(例如大小写差异)的模糊匹配提取内容仍会计为匹配。您可以在评估屏幕上更改此设置。

template-based-extraction-6

使用基础模型自动添加标签

基础模型可以准确提取各种文档类型的字段,不过您也可以提供额外的训练数据,以提高模型针对特定文档结构的准确率。

Document AI 使用您定义的标签名称和之前的注解,通过自动添加标签功能可以更加轻松快捷地为文档大规模添加标签。

  1. 创建自定义处理器后,前往开始标签页。
  2. 选择创建新字段

    template-based-extraction-7

  3. 前往构建标签页,然后选择导入文档

    template-based-extraction-8

  4. 选择文档的路径以及要将文档导入到哪个集合。选中“自动添加标签”复选框,然后选择基础模型。

  5. 构建标签页中,选择管理数据集。您应该会看到导入的文件。选择其中一份文件。

    template-based-extraction-9

  6. 您会看到模型的预测结果以紫色突出显示,您需要检查模型预测的每个标签,确保其正确无误。如果缺少字段,您还需要添加这些字段。

    template-based-extraction-10

  7. 文档审核完毕后,选择标记为已加标签

  8. 文档现已可供模型使用。确保该文档位于测试集或训练集中。