最佳实践和已知限制

最佳做法

  • 每个项目使用一个标注员池 - 在自带许可 (BYOL) 方案中,虽然 HITL 设置界面支持为每个处理器创建新的标注员池,但建议在项目的所有处理器中使用单个标注员池,以保持简单性。这是因为来自多个标签添加者池的用户仍可分配到同一任务,并且将标签添加者池分配给任务并不会限制标签添加经理将其他标签添加者分配给该任务。
  • 多个任务/文档类型 - 可能需要多个任务才能处理单个文档类型。在以下情况下,您必须这样做:
    • 需要具备不同技能或凭据的标签添加者来审核/验证同一文档的不同字段。
    • 具有不同字段的文档(例如来自不同供应商的账单)可能需要不同的架构才能进行验证,因此需要将其路由到不同的任务。
    • 不同客户的文档由不同的标注员群组负责处理(例如,不同客户、语言或国家/地区的发票)。
    在这种情况下,我们建议您创建多个处理器(和任务),并将文档发布到相应的任务。[可能需要分类器来对这些文档进行分类,并将其提交给正确的处理器]。
  • 将审核范围限定为必需的字段(而不是页面上的所有提取字段),以节省审核时间和成本 - 回答时间/页面会随要审核的字段数量而变化。Google 标记员费用取决于审核的字段数量。因此,建议仅审核下游业务流程中使用的字段。
    • 例如,发票可能包含 30 多个字段,但您可能希望将审核限制为仅审核对结算账单至关重要的 4-5 个字段。
  • 为启用 HITL 的处理器命名 - HITL 任务名称与处理器名称相同。建议使用标签添加经理和标签添加者能够理解的名称,并能轻松与其他任务区分开来。
  • 任务优先级 - 如果标签添加者被分配了多项任务,他们会按顺序处理这些任务。如果标签员需要切换任务(例如,响应客户升级或满足 SLO),标签经理应使用标签经理控制台中的“分配”标签页取消分配当前任务,并为标签员分配高优先级任务。
    • 通过控制台中的“Labelers X Tasks”(标记员与任务)网格(如下所示),标记经理可以查看所有标记员的任务分配情况,并微调哪些标记员负责哪些任务,以支持任务优先级。
  • 设置验证过滤器 验证过滤条件
  • 被拒的证件 - 证件的被拒状态以及原因代码(例如,证件类型不同、伪造、反光、模糊、边缘被截断等)会捕获到证件 JSON 文件中(TextChange 结构用于所有更改,HumanReview 用于拒绝原因),并输出到配置的 Cloud Storage 存储桶中。建议使用此元数据来区分被拒的文档。
  • 处理大量文档注入量 - 当前配额限制为每分钟 600 个在线文档请求,最多 5 个并发离线(批量)请求,每个请求最多处理 50 个文档。预计每小时可处理 36,000 个在线请求,以及最多 15,000 个离线(批量)文档请求 [因为每个批次最多可处理 50 个文档]。如果需要更高的音量,请与支持团队联系。
  • 管理人工验证费用和时间 - 无论您是使用自己的标签添加者还是 Google 标签添加者,人工验证都可能会产生高昂的费用。每页花费的时间会随审核字段的数量变化。Google Workspace(在非公开预览版中)会按每个审核的标签计费。您可以通过将 HITL 限制为需要验证和更正的重要字段来控制审核工作和费用。为此,请使用人工审核配置屏幕中的标签级验证过滤条件。
  • 使用企业凭据进行单点登录 - Labeler Workbench 和 Labeling Manager Console 支持 Google Workforce 或 Gmail 凭据。如果需要使用企业凭据进行单点登录,请为您的标注人员创建基本 Google Workforce 账号。Google Workforce 支持 SAML,您可以配置 SSO 提供方,以便使用企业凭据登录 Labeler Workbench 或 Labeling Manager Console。

已知限制和解决方法

以下是一些已知的限制和可能的解决方法。我们目前正在解决这些限制。

  • 边界框必须捕获一些文字 - 如果使用 HITL 注释文档以进行训练,则绘制的任何边界框都必须检测到一些 OCR。值不能为空。手动输入值无法解决此问题。
  • 新建标签添加者池
  • VPC-SC - 如果客户在 HITL 项目中启用了 VPC-SC,则可能无法使用 Google 标注员进行 HITL 审核。
  • 审核后延迟时间 - 文档经过审核后,可能需要长达 30 分钟的时间才能存入预配置的 Cloud Storage 文件夹。
  • 10 页限制 - HITL 审核仅限于账单的 10 页。超过 10 页的账单不会送交 HITL 审核。
  • 单标签员工作流 - 当前工作流任务仅限单个标签员审核。如果文档需要由多位审核人员审核(用于质量保证、欺诈防范等),请以“跳过处理器,将所有文档发送给 HITL 审核”模式将审核后的文档上传到第二个处理器,以便进行审核。
  • 修改标注池的标注管理员 - 在自带许可的任务中,标注池创建后,无法向其中添加或从中移除标注管理员。解决方法:创建新的标注池时,请执行以下操作:
    • 请分配 1 个以上的标签经理,这样,如果其中一位在任务完成之前离职,其他标签经理可以管理池和任务分配。
    • 如果用户需要在 Labeling Manager 界面中查看标记人员或任务分析信息中心,则应在创建池时将其添加为池管理员。
  • 取消任务 - 任务一旦开始便无法取消。解决方法是,标签管理器在标签管理器控制台中暂停任务或从任务中取消分配标签添加者。
  • 只需点击一下即可将任务分配给整个标签员池 - 目前不支持,但很快就会支持。解决方法是选择所有标记员,然后将任务分配给他们。
  • 新建标签添加者池
  • 拥有 Google Workspace 账号的自带许可标注员 - 如果自带许可标注经理和标注员拥有 Google Workspace 账号,Google Workspace 管理员可能需要在“Google 服务”页面底部启用“其他服务”(屏幕截图如下),才能启用对标注经理控制台和标注员工作台的访问权限。 Google Workspace