基于自定义的提取
借助自定义模型训练和提取功能,您可以构建专为您的文档设计的自定义模型,而无需使用生成式 AI。如果您不想使用生成式 AI,并且希望控制训练模型的所有方面,则此方法最适合。
数据集配置
必须使用文档数据集才能训练、追加训练或评估处理器版本。 Document AI 处理器会像人类一样从示例中学习。数据集有助于提升处理器性能稳定性。训练数据集
如需改进模型及其准确性,请使用您的文档训练数据集。该模型由包含标准答案的文档组成。您至少需要 3 个文档才能训练新模型。测试数据集
测试数据集是模型用来生成 F1 得分(准确性)的数据集。它由包含标准答案的文档组成。为了了解模型正确预测的频率,系统会使用标准答案将模型的预测结果(从模型中提取的字段)与正确答案进行比较。测试数据集应至少包含三份文档。开始前须知
如果尚未启用结算功能和 Document AI API,请先完成相应操作。
构建和评估自定义模型
首先构建自定义处理器,然后对其进行评估。
设置数据集位置:选择默认选项文件夹 Google 管理。系统可能会在创建处理器后不久自动执行此操作。
前往构建标签页,然后选择启用了自动标记功能的导入文档(请参阅使用基础模型自动标记)。您需要在训练集中至少有 10 个文档,在测试集中至少有 10 个文档,才能训练自定义模型。
训练模型:
- 选择训练新版本,然后为处理器版本命名。
- 前往显示高级选项,然后选择基于模型选项。
评估:
- 前往评估和测试,选择您刚刚训练的版本,然后选择查看完整评估。
- 现在,您会看到整个文档和每个字段的 F1 得分、精确率和召回率等指标。
- 确定性能是否符合您的生产目标。如果不符合,请重新评估训练集和测试集,通常将无法正确解析的文档添加到训练测试集中。
将新版本设为默认版本。
- 前往管理版本。
- 前往 菜单,然后选择设为默认。
您的模型现已部署,发送到此处理器的文档现在使用的是您的自定义版本。您想要评估模型的性能,以检查模型是否需要进一步训练。
评估参考
评估引擎可以执行完全匹配或模糊匹配。对于完全匹配,提取的值必须与标准答案完全匹配,否则会被计为错失。
存在细微差异(例如大小写差异)的模糊匹配提取内容仍会计为匹配。您可以在评估屏幕上更改此设置。
使用基础模型自动添加标签
基础模型可以准确提取各种文档类型的字段,不过您也可以提供额外的训练数据,以提高模型针对特定文档结构的准确率。
Document AI 使用您定义的标签名称和之前的注解,通过自动添加标签功能可以大规模为文档添加标签。
- 创建自定义处理器后,请前往开始标签页。
- 选择创建新字段。
- 提供描述性名称,并填写说明字段。借助属性说明,您可以为每个实体提供额外的背景信息、数据洞见和先验知识,从而提高提取准确性和性能。
前往构建标签页,然后选择导入文档。
选择文档的路径以及要将文档导入到哪个集合。勾选“自动加标签”复选框,然后选择基础模型。
在构建标签页中,选择管理数据集。您应该会看到导入的文件。选择其中一份文件。
现在,您会看到模型的预测结果以紫色突出显示。
- 查看模型预测的每个标签,确保其正确无误。如果缺少字段,请一并添加。
- 在文档审核完毕后,选择标记为已加标签。文档现已可供模型使用。确保文档位于测试或训练集中。