自定义提取器概览
自定义提取器可从特定类型的文档中提取实体。例如,它可以提取菜单中的内容,或者从简历中提取姓名和联系信息。
概览
自定义提取器的目标是让 Document AI 用户能够针对没有预训练处理器的新文档类型构建自定义实体提取解决方案。自定义提取器包含布局感知型深度学习模型(适用于生成式 AI 和自定义模型)和基于模板的模型的组合。
我应该使用哪种训练方法?
自定义提取器通过三种不同的模式支持各种用例。
训练方法 | 文档示例 | 文档布局变体 | 自由格式文本或段落 | 符合正式版质量要求的训练文档数量(取决于变异性) | |
---|---|---|---|---|---|
微调模型和基础模型(生成式 AI)。 | 合同、服务条款、账单、银行对账单、提货单、工资单。 | 从高到低(首选)。 | 高。 | 中等:0-50 多个文档。 | |
自定义模型。 | 模型。 | 不同年份或不同供应商的布局不同的类似表单(例如 W9)。 | 中低。 | 低。 | 高:10-100 多个文档。 |
模板。 | 采用固定布局的税表(例如表单 941 和 709)。 | 无。 | 低。 | 低(3 份文档)。 |
由于基础模型通常需要的训练文档较少,因此建议将其作为所有变量布局的首选。
置信度分数
置信度分数传达了模型将每个实体与预测值相关联的强度。该值介于 0 到 1 之间,越接近 1,模型对该值与实体对应的置信度就越高。这样,用户就可以设置触发器,以便在该值较低时手动审核个别实体。例如,确定实体中的文本是“Hello, world!”还是“HeIIo vvorld!”
这种方法的好处在于,可以发现置信度较低的个别实体、设置用于预测的阈值、选择最佳置信度阈值,以及开发新的策略来训练准确性和置信度分数更高的模型。
如需详细了解评估概念和指标,请参阅评估效果