版本说明

2022 年 12 月发布

HITL 配置步进器

“人参与回路”下的“配置”标签页现在采用有序的两步格式,以提供更简单、更有条理的设置体验。更新后的 HITL 配置 用户现在可以查看单独的步骤,以配置与专家团队和过滤条件相关的设置来触发 HITL,并为专家选择说明和结果位置。

2022 年 10 月发布版本

HITL 申请者分析信息中心
  • 人为回环现在有一个名为分析的专用标签页,可为用户提供指标和图表,以便分析每个处理器的 HITL 任务状态,并根据需要进行更改。

  • 目前,用户可以查看三种不同的指标。数据可以通过时间范围选择器进行汇总,该选择器为用户提供了以下选项:时间范围选择器

  • 对于每个所选时间范围,用户可以查看以下信息:

    • 汇总统计信息:成功上传到队列的文档总数、专家完成(即提交和遭拒)的文档总数,以及在所选时间范围内自最早文档添加到队列以来经过的时间的快照视图。汇总统计信息表
    • “人机协同”活动图表:显示文档添加到队列的时间 (enqueuedDocumentCount) 和专家完成文档的时间 (completedDocumentCount) 的时间序列数据的图表。HITL 活动图表
    • 人机协同触发率:此图表显示了所选时间段内触发人机协同审核的已上传文档所占百分比的时间序列数据。HITL 触发率图表

2022 年 9 月发布

注意:使用 Document AI Workbench、采购订单 (PO)、账单和支出处理程序的客户可以使用新的架构,以便为复选框(如果在架构中定义)添加标签,并在 HITL 注释和审核界面中准确表示嵌套实体(即父子关系)。随着越来越多的处理器采用新架构,这些版本说明也会相应更新

嵌套实体
  • 注释界面现在支持为嵌套实体添加标签。左侧面板已更新,嵌套行采用了新外观来表示嵌套实体。“父级”的值是其所有“子级”的串联。嵌套实体左侧面板
  • 左侧面板中的实体选择会显示父级和子级标签。 嵌套实体左侧面板选择
  • 文档内实体标签菜单也已更新,以支持嵌套实体标签。 嵌套实体菜单选择
  • 点击嵌套标签会弹出一个对话框,用于为嵌套子实体分配正确的父实体。 嵌套实体父级对话框
复选框
  • 注释界面支持为复选框添加标签。在左侧面板中,您可以在相应行中修改复选框。对勾框左侧面板
  • 实体修改对话框中也支持复选框修改。复选框修改表单

2022 年 8 月发布版本

实体标签选择
  • 实体标签输入已替换为下拉列表。此下拉列表包含添加新实体时可用的标签选项。这项变更有助于防止标注者输入拼写错误和创建不需要的实体标签。实体标签选择
ISO 日期格式
  • 标准化日期以 ISO 8601 日期格式(yyyy-mm-dd) 显示。ISO 日期格式

2022 年 7 月发布

“快速确认”按钮
  • 实体提示中提供了一个“确认”按钮,用于快速查看和确认实体/标签值。移除了“修改”按钮,因为用户可以直接点击实体提示来进行修改。 快速确认

2022 年 1 月发布版本

实体标签选项
  • 实体标签选择选项现在仅限于已过滤的字段列表(在 HITL 过滤条件配置中设置)。实体标签
缺少字段
  • 现在,我们会以醒目的红色显示缺失的字段(即在 HITL 过滤器配置中标记为“必填”但处理器尚未预测出字段值的字段),以便审核员轻松更新字段的值。 缺少字段
随机完整样本
  • 我们现在支持对文档的随机抽样(例如占每日量 2%)进行完整审核(即文档中的所有实体,而不仅仅是经过过滤的字段)。这有助于监控模型漂移,并分析每个领域的处理器准确性。我们会收集这些分析数据,以便了解何时需要进行升级训练。这还可用作包含标记标准答案的数据集,以便对模型进行升级训练。
  • 客户可以选择启用此功能,并根据其数据量设置随机抽样比例 [1-10%]。最好每周收集 100-500 个样本。因此,如果客户每周处理 1 万份文档,则此值可设置为 500/10000 = 5%
面向首次用户的简化 HITL 配置
  • 我们简化了面向首次使用 HITL 服务的客户的“自助式 HITL”配置,让他们能够在一个界面中快速配置任务、分配专家并启动任务,以便在扩大生产量或外包操作之前快速试用。
  • 如以下屏幕截图所示,系统会将该用户设为该团队的默认经理,他们可以添加其他专家,系统会在同一界面中自动将所有专家分配给相应任务。
    • 以前,系统会向指定的经理发送指向经理控制台的链接,以便他们添加专家并将任务分配给这些专家。
    • 提交任务后,他们(以及分配给的其他专家)可以前往 HITL 应用查看文档。
    • 用户还可以将测试文档(一次一个)上传到任务队列。简化版 HITL 配置 1 简化版 HITL 配置 2
移除尾随行分隔符
  • 移除了 entity.mentionText 中的尾行断行符(\n)。

2021 年 12 月发布版本

将得分较低的实体排在前面
  • 得分较低的实体(即置信度低于阈值的实体)现在会排序到页面顶部,以便专家重点关注这些实体。这有助于进一步提高标记效率。按置信度排序
可选的 BYOL 任务说明
  • 用于配置 HITL 任务的上传 PDF 说明现在是可选的。这样可以简化测试流程,并快速进行内部发布,而无需专家参考说明指南。 说明(选填)
“适应宽度”和“适应页面高度”选项
  • 用于让页面适应宽度或高度的按钮。当专家在任务中处理大小不等的文档(例如收据)时,此功能非常有用。适合选项
专家界面中显示的任务名称
  • 现在,任务名称会显示在专家界面中,以便为专家提供有关任务和文档类型的更多背景信息,这在专家被分配到多个任务时非常有用。
  • 请注意,此版本发布后启动的新处理器中会显示此值。专家界面任务名称
用于搜索专家的搜索框
  • 专家可以在文档中搜索实体/文本。这对于大型多页文档特别有用,有助于提高专家的工作效率。 专家搜索框

2021 年 9 月发布

切换以显示所有字段
  • 标注者可能需要检查并更新队列中特定文档中未包含在过滤的实体集中的字段。您可以切换显示所有预测选项,以允许标注者查看未过滤的字段。切换
适用于表单解析器的 HITL
  • HITL 现在支持表单解析器,因此用户可以查看和更正表单解析器提取的键值对。客户可以在 DocAI 平台中为表单解析器处理器启用 HITL,并配置要过滤以进行 HITL 审核的键名称(如下面的屏幕截图所示)。完成 HITL 审核后,HITL 输出会作为 JSON 文件放入客户指定的 Google Cloud Storage 存储分区中。
  • 他们可以指定以英文逗号分隔的备选关键字名称,例如“客户、客户名称、客户、账号 #、账号”,以便 HITL 过滤器捕获包含所有关键字变体的文档,并将其发送进行 HITL 审核。适用于表单解析器 1 的 HITL 适用于表单解析器 2 的 HITL 适用于 Form Parser 3 的 HITL

2021 年 8 月发布版本

审核/质量检查流水线
  • HITL 现在支持第 2 阶段质量检查或审核阶段,并报告审核任务(以及标注者)的准确性。质量检查团队或审核员可以被分配为某个任务的“专家标注者”。质量检查团队/审核员会收到经过审核的文档的 X%(例如 1%-100%,此值由客户配置)。审核员可以更正审核者的输出。系统会跟踪更正内容,并为每个经过审核的文档分配准确性得分(例如 90%)。任务或标签添加者的总体准确率得分分别会在“任务”和“标签添加者”分析信息中心内报告。
  • 以下是有关配置审核流水线的详细说明。
  • 指定审核员 指定审核员
  • 报告准确性 报告准确性
Lending AI 解析器(8 月 15 日)
  • 部分放款 AI 解析器现在支持 HITL,包括 1040、1040 附表 E、1040 附表 C、1099 DIV、1099 G、1099 INT、1099 MISC、工资条、银行对账单、W2、W9、1120、1120S、1065、SSA-1099、1099 NEC、1099-R。

2021 年 7 月发布

标准队列与紧急队列(7 月 2 日)
  • 我们现在支持为每个处理器配置 2 个优先级队列(而非 1 个队列),以便根据每个文档的紧急程度进行处理。
  • 提交 - 预测后,系统可以评估提取的文档的紧急程度,并根据文档的紧急程度将其提交到 2 个队列(标准与紧急/快速处理)。例如,您可以将到期日期紧急的账单提交到“快速处理”队列。评估紧急程度的逻辑目前不在 HITL 中,可以是自定义函数。
  • 任务分配 - 标注管理器会看到 2 个优先级不同的队列,如下面的屏幕截图所示,并且可以将同一组标注者分配给这两个队列。
  • 任务优先级 - 分配给这两项任务的标注者始终会先处理“快速处理”队列中的所有待处理文档,然后再处理“标准”队列(即,系统会自动处理队列优先级)
  • API 调用 - 在 ReviewDocument 中设置 priority 字段
  • 界面屏幕截图(Labeling Manager 界面中的任务)- 优先队列

2021 年 6 月发布

HITL 端点的验证过滤条件(6 月 24 日)
  • 现在,验证过滤条件(在处理器中配置)也会应用于提交到 HITL 端点的文档,这些过滤条件会按置信度分数过滤字段,以确定要加入人工审核队列的文档。
  • 调用 ReviewDocument API 时,将 enable_schema_validation 字段设置为 true。
  • 请注意,如果设置此属性,并且验证决定文档不需要触发人工审核,系统会返回 CANCELLED 错误。
Cancel API
  • 客户可以通过针对给定操作 ID 调用 Cancel API 来取消加入 HITL 处理队列的文档。系统会针对提交到 HITL 的每个文档返回一个操作 ID。

    `POST https://[us|eu]-documentai.googleapis.com/{api_version}/{name=projects/*/operations/*}:cancel`
    
账单类型(分类审核)
  • 标注器工作台支持查看账单类型分类。 账单类型分类
队列中等待时间 (HITL 延迟时间 SLO) 报告
  • 报告会显示排队超过 18 小时和超过 24 小时的文档数量。对于需要管理 HITL 延迟时间 SLO 预期的用户,这非常有用。 排队时间
Labeler Workbench 的已知网址
  • 分配到单个工作池的标注者现在可以通过已知网址访问工作台,而无需查找系统或标注管理器在电子邮件通知中发送的难以解读的网址。此网址不适用于分配到多个标签池的标注者。
粘性缩放设置
  • 该插件现在会记住标注者对队列中下一份待审核文档的缩放设置(全宽与全页),这样他们就不必针对每份文档进行缩放。

适用于表单解析器的 HITL

  • HITL 现在支持表单解析器。用户可以查看和更正表单解析器提取的键值对,并在 DocAI 平台中为表单解析器处理器启用 HITL,然后配置要过滤以进行 HITL 审核的键名称(如下面的屏幕截图所示)。完成 HITL 审核后,HITL 输出会保存为客户指定的 Google Cloud Storage 存储分区中的 JSON 文件。
  • 用于在表单解析器上配置 HITL 的界面屏幕截图 HITL 表单解析器
  • 用于配置键级验证的界面 键级验证
  • 标注器界面 Form Parser 标签器界面

审核/质量检查流水线

  • HITL 现在支持第 2 阶段质量检查或审核阶段,并报告审核任务(以及标注者)的准确性。质量检查团队或审核员可以被分配为某个任务的“专家标注者”。质量检查团队/审核员将收到经过审核的文档的 X%(例如 1%-100%,此值由客户配置)。审核员可以更正审核者的输出。系统会跟踪更正内容,并为每个经过审核的文档分配准确性得分(例如 90%)。任务或标签添加者的总体准确率得分分别会在“任务”和“标签添加者”分析信息中心内报告。以下是有关配置审核流水线的详细说明。
  • 指定审核员 指定审核员

  • 报告准确性 报告准确性

借贷 AI 解析器(7 月 31 日)

  • 部分贷款 AI 解析器现在支持人机协同 (HITL),包括 1040、1040 附表 E、1040 附表 C、1099 DIV、1099 G、1099 INT、1099 MISC、工资条、银行对账单、W2、W9、1120、1120S、1065、SSA-1099、1099 NEC、1099-R

标准队列与快速通道队列(7 月 2 日)

  • 我们现在支持为每个处理器配置 2 个优先级队列(而非 1 个队列),以便根据每个文档的紧急程度进行处理。
  • 提交 - 预测后,系统可以评估提取的文档的紧急程度,并根据文档的紧急程度将其提交到 2 个队列(标准与紧急/快速处理)。例如,您可以将到期日期紧急的账单提交到“快速处理”队列。您可以通过自定义函数输入用于评估紧急程度的逻辑。
  • 任务分配 - 标注管理器会看到 2 个优先级不同的队列,如下面的屏幕截图所示,并且可以将同一组标注者分配给这两个队列。
  • 任务优先级 - 分配给这两项任务的标注者始终会先处理“快速处理”队列中的所有待处理文档,然后再处理“标准”队列(即,系统会自动处理队列优先级)
  • API 调用 - 在 ReviewDocument 中设置 priority 字段
  • 界面屏幕截图(Labeling Manager 界面中的任务) 界面屏幕截图

HITL 端点的验证过滤条件(6 月 24 日)

  • 现在,验证过滤条件(在处理器中配置)也会应用于提交到 HITL 端点的文档,这些过滤条件会按置信度分数过滤字段,以确定要加入人工审核队列的文档。
  • 调用 ReviewDocument API 时,将 enable_schema_validation 字段设置为 true。请注意,如果设置此参数,并且验证决定文档不需要触发人工审核,系统会返回 CANCELLED 错误。

Cancel API

  • 您可以针对给定操作 ID 调用 Cancel API,取消加入 HITL 处理队列的文档。[对于提交到 HITL 的每个文档,系统都会返回一个操作 ID]

         `POST https://[us|eu]-documentai.googleapis.com/{api_version}/{name=projects/*/operations/*}:cancel`
    

账单类型(分类审核)

  • 标注器工作台支持查看账单类型分类。 账单类型分类

队列中等待时间 (HITL 延迟时间 SLO) 报告

  • 报告会显示排队时间超过 18 小时和 24 小时的文档数量。对于需要管理 HITL 延迟时间 SLO 预期的用户,这非常有用。 等待时间报告

Labeler Workbench 的已知网址

  • 分配到单个标注池的标注者现在可以通过已知网址 https://datacompute.corp.google.com/w/ 访问该工作台。如果您找不到系统或标签管理器发送的包含网址的电子邮件,这项功能就非常有用。此网址不适用于分配到多个标注池的标注者。

粘性缩放设置

  • 该插件现在会记住标注者对队列中下一份待审核文档的缩放设置(全宽与全页),这样他们就不必针对每份文档进行缩放。