虽然 HITL Labeler Workbench 提供了一个所见即所得 (WYSIWYG) 界面,可将文档实体映射到提取的标签,从而方便标签添加者进行比较和更正。需要提供说明文档,以指导人工标签添加者查找和添加哪些标签,并说明在 Document AI 模型或 HITL 的验证过滤器遗漏标签的情况下该如何处理。其中包括:
- 要查看哪些标签。
- 是否有任何字段是必填字段或选填字段。
- 任何业务逻辑
- 正确的标签(例如,为未指定“美国”的美国地址添加“美国”)。
- 拒绝包含正确拒绝字段的文档 - 例如拒绝金额超过 10,000 美元的账单。
- 文档中与架构标签对应的特殊标签名称,以便标签器添加这些标签,例如“客户编号”=“账号”。
- 您可以在 HITL 任务配置中将这些内容设置为过滤条件。
设计优秀的说明
好的说明是获得绝佳人工标签结果的最重要因素。优质说明可让人工标签添加者了解您的需求。以下是创建优质说明的几项准则:
- 人工标签添加者可能不具备您的相关领域知识。对于不熟悉您的使用场景的人来说,您要求标签添加者做出的区分必须易于理解。
- 避免创建过于冗长的说明。最好是标签添加者能够在 20 分钟内看完并且理解。
- 说明必须描述任务的概念以及有关如何为数据加标签的详细信息。
- 如果您的说明具有对应的标签集,则必须涵盖该集中的所有标签。说明中的标签名称必须与标签集中的名称一致。
- 为了创建良好的说明,通常需要进行多次迭代。我们建议您先为小型数据集添加标签,然后再根据获得的结果对说明进行调整。
好的说明文件必须包含以下几个部分:
- 标签列表和说明:列出使用的所有标签并说明每个标签的含义。
- 示例:对于每个标签,请提供至少三个正例和一个负例。这些示例必须涵盖不同的用例。
- 涵盖边缘用例。尽可能多地阐明边缘用例,让标签添加者无需自行解释标签。例如,如果您需要绘制人物边界框,最好能清楚地说明以下事项:
- 如果有多个人物,您是否需要为每个人物绘制一个边界框?
- 如果某个人被遮挡了,您是否需要绘制边界框?
- 对于图片中只显示了部分身体的某个人,您是否需要绘制边界框?
- 您是否需要为照片或绘画中的人物绘制边界框?
- 说明如何添加注释。例如:
- 对于边界框,您需要紧凑型还是松散型的?
- 对于文本实体提取,相关实体应该从哪里开始、在哪里结束?
- 阐明标签。如果两个标签很相似或易于混淆,请举例说明二者的差异。
视觉示例
此直观示例可帮助标注人员了解文档中不同实体的位置,以及这些实体如何映射到架构中的提取标签。 在说明中添加视觉示例,例如: