创建 HITL 审核说明
虽然 HITL 标注者工作台提供了“所见即所得”(WYSIWYG) 界面,可将文档实体映射到提取的标签,但标注者仍可以轻松进行比较和更正。您需要提供一份说明文档,以指示人工标签添加者要查找和添加哪些标签,以及在 Document AI 模型或 HITL 的验证过滤器漏掉这些标签时如何处理。其中包括:
- 要审核哪些标签。
- 是否有任何字段是必填字段或选填字段。
- 任何业务逻辑,用于
- 正确的标签(例如,为未指定美国的美国地址添加“美国”)。
- 使用正确的拒绝字段拒绝文档,例如拒绝金额超过 1 万美元的账单。
- 文档中与架构标签对应的特殊标签名称,以便标注者添加这些标签,例如“客户编号”=“账号编号”。
- 您可以在 HITL 任务配置中将这些设置为过滤条件。
设计优秀说明
好的说明是获得绝佳人工标签结果的最重要因素。优质说明是指让人工标签添加者了解您希望他们执行的操作的说明。以下是创建优质说明的一些准则:
- 人工标签添加者可能不具备您的相关领域知识。对于不熟悉您的使用场景的人来说,您要求标签添加者做出的区分必须易于理解。
- 避免创建过于冗长的说明。最好是标签添加者能够在 20 分钟内看完并且理解说明。
- 说明必须描述任务的概念以及有关如何为数据加标签的详细信息。
- 如果您的说明具有对应的标签集,则必须涵盖该标签集中的所有标签。说明中的标签名称必须与标签集中的名称一致。
- 为了创建良好的说明,通常需要进行多次迭代。我们建议您先为小型数据集添加标签,然后再根据获得的结果对说明进行调整。
好的说明文件必须包含以下几个部分:
- 标签列表和说明:列出使用的所有标签并说明每个标签的含义。
- 示例:对于每个标签,请提供至少三个正例和一个负例。这些示例必须涵盖不同的用例。
- 涵盖边缘用例。尽可能多地阐明边缘用例,让标签添加者无需自行解释标签。例如,如果您需要绘制人物边界框,最好能清楚地说明以下事项:
- 如果有多个人物,您是否需要为每个人物绘制一个边界框?
- 如果某个人被遮挡了,您是否需要绘制边界框?
- 对于图片中只显示了部分身体的某个人,您是否需要绘制边界框?
- 您是否需要为照片或绘画中的人物绘制边界框?
- 说明如何添加注释。例如:
- 对于边界框,您需要紧凑型还是松散型的?
- 对于文本实体提取,相关实体应该从哪里开始、在哪里结束?
- 阐明标签。如果两个标签相似或易于混淆,请举例说明二者的差异。
直观示例
直观的示例可让标注者清楚地了解文档中不同实体的预期位置,以及它们如何映射到架构中提取的标签。在说明中添加直观的示例,例如: