自定义提取器概览

自定义提取器可从特定类型的文档中提取实体。例如,它可以提取菜单中的内容,或者从简历中提取姓名和联系信息。

概览

自定义提取器的目标是让 Document AI 用户能够为没有预训练处理器的新文档类型构建自定义实体提取解决方案。自定义提取器包含布局感知型深度学习模型(适用于生成式 AI 和自定义模型)和基于模板的模型的组合。

我应该使用哪种训练方法?

自定义提取器支持各种应用场景,并提供三种不同的模式。

训练方法 文档示例 文档布局变体 自由格式文本或段落 达到可投入生产的质量所需的训练文档数量,具体取决于变异性
微调和基础模型(生成式 AI)。 合同、服务条款、账单、银行对账单、提货单、工资单。 从高到低(首选)。 高。 中:0-50 份以上文档。
自定义模型。 模型。 布局因年份或供应商而异的类似表单(例如 W9)。 低到中。 低。 高:10-100+ 个文档。
模板。 具有固定布局的税务表单(例如表单 941 和 709)。 无。 低。 低(3 个文档)。

由于基础模型通常需要的训练文档较少,因此建议将其作为所有可变布局的首选方案。

置信度分数

置信度分数传达了模型将每个实体与预测值相关联的强度。该值介于 0 到 1 之间,越接近 1,模型对该值与相应实体的对应关系的置信度就越高。这样一来,用户就可以在值较低时设置触发器,以便手动审核各个实体。例如,确定实体中的文本是“Hello, world!”还是“HeIIo vvorld!”

这种方法的优势在于,可以发现置信度较低的单个实体,设置使用哪些预测结果的阈值,选择最佳置信度阈值,以及开发新的策略来训练具有更高准确度和置信度分数的模型。

如需详细了解评估概念和指标,请参阅评估效果