概念

以下是此产品中使用的部分概念和功能:

概念 定义
审核 将提取的字段值与文档中的实际值进行直观比较,并更正任何错误的提取结果,或添加 DocAI 处理器未提取到的字段的过程。
标签添加者 审核提取的文档的人工。客户可以使用自己的员工(自带标签添加者或 BYOL)或 Google 标签添加者进行 HITL 审核。
任务 待标签添加者审核的提取文档队列。当处理器配置为进行 HITL 审核时,它会生成单个任务。
Labeler Workbench 标签添加者用于审核文档的界面。界面会显示队列中的文档,标注者可以查看、更正这些文档,并将其提交或拒绝。
  • 自助标注者需要拥有 Google Workforce 或 Gmail 账号,才能访问标注界面。
  • 标注者可以在任务分配后通过标注管理器通过电子邮件发送的链接访问 Workbench。
回答时间 这是标注者处理文档所需的时间。标签添加者工作台会跟踪文档提交时间,并显示效率分析(例如,每个标签添加者文档审核的效率)。
标签管理器 一个或多个标注管理员会被分配到标注者池,以便他们执行以下操作:
  • 向标注者池添加或移除标注者。
  • 向标注者分配或取消分配任务。标注者管理员可以访问项目中的所有任务。他们可能会根据任务优先级的变化,更改分配给标注者的任务。
  • 暂停任务,以便标注者处理分配给他们的后续任务。
在 BYOL 场景中,标签管理员由客户提供。 使用 Google 标签添加者时,Google 会提供标签管理器。
标签管理器控制台 Labeling Manager 用于管理标注者池和任务分配的界面。打开控制台
任务中的待处理、已回答、已完成、已遭拒的文档 任务是一种持续的工作流。文档会经历以下状态:
  • 已加入队列 - 文档在处理器处理时,会加入队列(添加)到 HITL 任务。
  • 已回答 - 当标注者审核、更正并提交文档后,该文档会完成并保存在客户配置的 Cloud Storage 存储分区中。
  • 已完成 - 如果任务已启用复制(多个标注者处理任务中的每个文档),则在所有标注者都回答了文档后,该文档的状态会变为“已完成”。如果任务没有复制(由单个标注者审核),已回答已完成相同。
  • 遭拒 - 如果文档无效(文档类型不同、伪造等)或质量较差(眩光、边缘被截断等),则可能会被拒绝
每个处理器一个任务 我们不支持每个处理器执行多个任务。如果客户需要在不同的任务中处理单一文档类型(例如账单),则可以使用 HITL 审核配置多个处理器。
任务分配与标签添加者池 标注管理器会将标注者添加到标注者池。添加后,您可以将该池中的任何标注者分配给任务。 请注意,“标注者池”与分配给任务的标注者“群组”不同。池在项目一级进行管理,用于确定标注者对分析和任务的访问权限。您可以将该池中的任何标注者分配给项目中的多个任务。
标签添加者池 标注者池是在项目级创建的,请勿将其与任务分配混淆。标注管理器可以将任何标注者分配给任务,以便多个标注者可以并行查看文档,更快地完成任务。客户可以将标注者池分配给项目中的任何任务。
验证过滤条件和阈值 提取的字段具有置信度分数(0-100),表示 DocAI 提取结果的准确性。客户可以为每个字段配置验证阈值,以便仅将字段验证得分低于此阈值的网页加入队列以供审核;得分高于此阈值的字段不会加入队列。 客户可以配置 3 种类型的验证过滤条件:
  • 字段级过滤器 - 选择需要审核的重要字段,并为每个字段指定置信度阈值。如果为任何字段设置此阈值为 100%,则系统会将包含此字段的所有网页送交审核。
  • 文档级过滤条件 - 选择文档级总体置信度阈值。如果任何字段低于阈值,系统会将整个网页送交审核。如果此阈值设为 100%,系统会将所有预测的文档都送审。
  • 无过滤条件 - 发布到 HITL 端点的每份文档都会送交审核。
标签管理器分析 标注管理器会获取每个任务和每个标注者的分析数据,包括“已加入队列”“已回答”“已跳过”“已完成”“平均处理时间/文档”和“总回答时间”。 您可以在标签管理器控制台的“分析”标签页中访问分析。