创建 HITL 审核说明

虽然 HITL Labeler Workbench 提供了一个所见即所得 (WYSIWYG) 界面,可将文档实体映射到提取的标签,从而方便标签添加者进行比较和更正。需要提供说明文档,以指导人工标签添加者查找和添加哪些标签,并说明在 Document AI 模型或 HITL 的验证过滤器遗漏标签的情况下该如何处理。其中包括:

  • 要查看哪些标签。
  • 是否有任何字段是必填字段或选填字段。
  • 任何业务逻辑
    • 正确的标签(例如,为未指定“美国”的美国地址添加“美国”)。
    • 拒绝包含正确拒绝字段的文档 - 例如拒绝金额超过 10,000 美元的账单。
  • 文档中与架构标签对应的特殊标签名称,以便标签器添加这些标签,例如“客户编号”=“账号”。
  • 您可以在 HITL 任务配置中将这些内容设置为过滤条件。

设计优秀的说明

好的说明是获得绝佳人工标签结果的最重要因素。优质说明可让人工标签添加者了解您的需求。以下是创建优质说明的几项准则:

  • 人工标签添加者可能不具备您的相关领域知识。对于不熟悉您的使用场景的人来说,您要求标签添加者做出的区分必须易于理解。
  • 避免创建过于冗长的说明。最好是标签添加者能够在 20 分钟内看完并且理解。
  • 说明必须描述任务的概念以及有关如何为数据加标签的详细信息。
  • 如果您的说明具有对应的标签集,则必须涵盖该集中的所有标签。说明中的标签名称必须与标签集中的名称一致。
  • 为了创建良好的说明,通常需要进行多次迭代。我们建议您先为小型数据集添加标签,然后再根据获得的结果对说明进行调整。

好的说明文件必须包含以下几个部分:

  • 标签列表和说明:列出使用的所有标签并说明每个标签的含义。
  • 示例:对于每个标签,请提供至少三个正例和一个负例。这些示例必须涵盖不同的用例。
  • 涵盖边缘用例。尽可能多地阐明边缘用例,让标签添加者无需自行解释标签。例如,如果您需要绘制人物边界框,最好能清楚地说明以下事项:
    • 如果有多个人物,您是否需要为每个人物绘制一个边界框?
    • 如果某个人被遮挡了,您是否需要绘制边界框?
    • 对于图片中只显示了部分身体的某个人,您是否需要绘制边界框?
    • 您是否需要为照片或绘画中的人物绘制边界框?
  • 说明如何添加注释。例如:
    • 对于边界框,您需要紧凑型还是松散型的?
    • 对于文本实体提取,相关实体应该从哪里开始、在哪里结束?
  • 阐明标签。如果两个标签很相似或易于混淆,请举例说明二者的差异。

视觉示例

此直观示例可帮助标注人员了解文档中不同实体的位置,以及这些实体如何映射到架构中的提取标签。 在说明中添加视觉示例,例如:

example-instruction