2022 年 12 月发布版本
HITL 配置步进器
“人工在环”下的“配置”标签页现在以有序的步骤对的形式呈现,以便提供更轻松、更结构化的设置体验。
用户现在可以查看单独的步骤,以配置与专家池相关的设置和触发 HITL 的过滤器,并为专家选择指令和结果位置。
2022 年 10 月发布的版本
HITL 请求者分析信息中心
“人为回环”现在有一个专用标签页,称为 Analytics,可为用户提供指标和图表,以便用户分析每个处理器的 HITL 任务状态并根据需要进行更改。
目前,用户可以查看三种不同的指标。数据可按时间范围选择器进行汇总,该选择器为用户提供以下选项:
对于每个所选时间范围,用户可以查看以下内容:
- 汇总统计信息:一个快照视图,其中显示了成功上传到队列中的文档总数、专家完成(即提交和拒绝)的文档总数,以及自最早的文档添加到队列以来所经过的时间(针对所选时间范围)。
- 人机协同活动图表:显示将文档添加到队列的时间 (
enqueuedDocumentCount
) 和专家完成文档的时间 (completedDocumentCount
) 的时序数据图表。 - 人机协同触发率:一个图表,显示在所选时间段内触发人机协同审核的上传文档所占百分比的时间序列数据。
- 汇总统计信息:一个快照视图,其中显示了成功上传到队列中的文档总数、专家完成(即提交和拒绝)的文档总数,以及自最早的文档添加到队列以来所经过的时间(针对所选时间范围)。
2022 年 9 月发布版本
注意:使用 Document AI Workbench、采购订单 (PO)、发票和费用处理器的客户可以访问新架构,该架构使客户能够标记复选框(如果在架构中定义)并准确表示 HITL 注解和审核界面上的嵌套实体(即父子关系)。随着越来越多的处理器采用新架构,我们会更新这些版本说明以反映相应变化
嵌套实体
- 注释界面现在支持为嵌套实体添加标签。左侧面板会刷新,并显示嵌套行的新外观,以表示嵌套实体。“parent”的值是其所有“children”的串联。
- 左侧面板实体选择显示父标签和子标签。
- 文档内实体标签菜单也进行了刷新,以支持嵌套实体标记。
- 点击嵌套标签会弹出一个对话框,用于为嵌套的子实体分配正确的父实体。
复选框
- 注释界面支持为复选框添加标签。在左侧面板中,可以在相应行中修改复选框。
- 实体修改对话框中也提供复选框修改功能。
2022 年 8 月发布的版本
实体标签选择
- 实体标签输入已替换为下拉列表。此下拉列表包含添加新实体时可用的标签选项。这项变更有助于防止标注人员出现拼写错误并创建不必要的实体标签。
ISO 日期格式
- 标准化日期以 ISO 8601 日期格式(yyyy-mm-dd) 显示。
2022 年 7 月发布的版本
“快速确认”按钮
- 实体提示中提供了一个“确认”按钮,可用于快速查看和确认实体/标签值。移除了“修改”按钮,因为用户可以直接点击实体工具提示进行修改。
2022 年 1 月发布的版本
实体标签选项
- 实体标签选择选项现在仅限于过滤后的字段列表(在 HITL 过滤配置中设置)。
缺少字段
- 现在,我们会以醒目的红色显示缺失的字段(即在 HITL 过滤条件配置中标记为“必需”但处理器尚未预测出值的字段),以便审核人员轻松更新字段的值。
随机完整样本
- 我们现在支持对随机抽样的文档(例如,每日文档量的 2%)进行完整审核(即审核文档中的所有实体,而不仅仅是过滤后的字段)。这有助于监控模型漂移,并分析每个字段中处理器的准确性 - 我们会收集这些分析数据,以便了解何时需要重新训练。这也可以作为具有标记的标准答案的数据集,用于重新训练模型。
- 客户可以选择启用此功能,并根据自己的交易量设置随机抽样比例 [1-10%]。每周定位 100-500 个样本会很有用。因此,如果客户每周处理 10,000 份文档,则此值可设置为 500/10000 = 5%
面向初次用户的简化版 HITL 配置
- 我们简化了首次使用 HITL 的客户的 BYOL HITL 配置,以便他们能够快速配置任务、分配专家并从单个屏幕启动任务,从而在扩大生产量或外包运营之前快速试用。
- 如下面的屏幕截图所示,该用户成为资源池的默认经理,并且可以添加其他专家,所有这些专家都会在同一屏幕中自动分配到相应任务。
- 之前,系统会通过电子邮件向分配的经理发送一个指向经理控制台的链接,经理可以在该控制台中添加专家并将任务分配给这些专家。
- 提交任务后,他们(以及其他分配到的专员)可以前往 HITL 应用查看文档。
- 用户还可以将测试文档(一次一个)上传到任务队列。
移除尾随换行符
- 在 entity.mentionText 中移除了尾随换行符(“\n”)。
2021 年 12 月发布版本
将置信度得分较低的实体排序到顶部
- 低置信度得分实体(即低于置信度阈值的实体)现在会排序到页面顶部,以便专家专注于这些实体。这有助于进一步提高加标签效率。
说明(对于 BYOL 任务为可选)
- 现在,上传用于配置 HITL 任务的 PDF 说明是可选操作。这样可以简化测试和快速内部发布,而专家无需使用说明指南。
“适合窗口宽度”和“适合页面高度”选项
- 用于使页面宽度或高度适合窗口大小的按钮。当专家在任务中处理大小不一的文档(例如收据)时,此功能非常有用。
在专家版界面中显示的任务名称
- 现在,专家界面中会显示任务名称,以便为专家提供有关任务和文档类型的更多背景信息。当专家被分配到多个任务时,此功能非常有用。
- 请注意,此信息会显示在相应版本发布后启动的新处理器中。
专家搜索框
- 专员可以在文档中搜索实体/文本。这对于大型多页文档尤其有用,可提高专家工作效率。
2021 年 9 月版本
切换以显示所有字段
- 对于队列中的特定文档,标注人员可能需要查看并更新不在过滤后的实体集中的字段。您可以切换显示所有预测结果选项,以允许注释者查看未过滤的字段。
Form Parser 的 HITL
- HITL 现在支持 Form Parser,因此用户可以查看和更正 Form Parser 提取的键值对。客户可以在 DocAI 平台中针对表单解析器处理器启用 HITL,并配置他们希望过滤以进行 HITL 审核的键名称(如下面的屏幕截图所示)。HITL 输出在 HITL 审核完成后会以 JSON 文件的形式放置在客户指定的 Google Cloud Storage 存储桶中。
- 他们可以指定以英文逗号分隔的备用键名,例如“customer, customer name, client, account #, account number”,以便 HITL 过滤器捕获具有所有键名变体的文档,并将其发送以供 HITL 审核。
2021 年 8 月发布版本
审核/质量检查流水线
- HITL 现在支持第二阶段质量检查或审核阶段,并报告审核任务(以及加标签者)的准确性。您可以将质量检查团队或审核员分配为任务的“专家标注员”。质检团队/审核员会收到已审核文档的 X%(例如 1%-100%,客户可自行配置)。审核员可以更正审核者的输出。系统会跟踪更正情况,并为每个经过审核的文档分配准确度得分(例如 90%)。任务和标签员分析信息中心分别会报告任务或标签员的总体准确率得分。
- 以下是有关配置审核流水线的详细说明。
- 指定审核员
- 报告准确性
Lending AI 解析器(8 月 15 日)
- 现在,部分贷款 AI 解析器支持 HITL,包括 1040、1040 附表 E、1040 附表 C、1099 DIV、1099 G、1099 INT、1099 MISC、工资单、银行对账单、W2、W9、1120、1120S、1065、SSA-1099、1099 NEC、1099-R。
2021 年 7 月发布版本
标准队列与紧急队列(7 月 2 日)
- 现在,我们为每个处理器支持 2 个优先级队列(之前为 1 个队列),具体取决于每个文档的紧急程度。
- 提交 - 预测完成后,可以评估提取的文档的紧急程度,并根据文档的紧急程度将其提交到 2 个队列(标准队列与紧急/快速通道队列)。例如,到期日临近的紧急账单可以提交到快速处理队列。评估紧急程度的逻辑目前位于 HITL 之外,可以是自定义函数。
- 任务分配 - 标签经理会看到 2 个具有不同优先级的不同队列,如下面的屏幕截图所示,并且可能会将同一组标签员分配给这两个队列。
- 任务优先级 - 分配给这两个任务的标签员始终会先处理快速通道队列中的所有待处理文档,然后再处理标准队列中的文档(即队列优先级由系统自动处理)
- API 调用 - 在 ReviewDocument 中设置 priority 字段
- 界面屏幕截图(Labeling Manager 界面中的任务)-
2021 年 6 月发布的版本
HITL 端点的验证过滤条件(6 月 24 日)
- 用于按置信度过滤字段以确定要排队送交人工审核的文档的验证过滤条件(在处理器中配置)现在也适用于提交到 HITL 端点的文档。
- 调用 ReviewDocument API 时,请将 enable_schema_validation 字段设置为 true。
- 请注意,如果设置了此值,并且验证确定文档不需要触发人工审核,则会返回 CANCELLED 错误。
取消 API
客户可以通过针对指定操作 ID 调用 Cancel API 来取消已排队等待 HITL 处理的文档。对于提交给 HITL 的每个文档,系统都会返回一个操作 ID。
`POST https://[us|eu]-documentai.googleapis.com/{api_version}/{name=projects/*/operations/*}:cancel`
账单类型(分类审核)
- Labeler Workbench 支持查看“发票类型”分类。
排队时长(HITL 延迟时间 SLO)报告
- 报告会显示有多少文档排队时间超过 18 小时和 24 小时。这对于需要管理 HITL 延迟时间 SLO 预期的用户非常有用。
Labeler Workbench 的已知网址
- 分配给单个池的标记员现在可以通过已知网址访问工作台,而无需查找电子邮件通知(由系统或标记经理发送)中发送的神秘网址。此网址不适用于分配给多个池的标记员。
粘性缩放设置
- 插件现在会记住标记员的缩放设置(全宽与全页),以便在队列中进行下一次文档审核时使用,这样标记员就不必为每个文档都进行缩放。
Form Parser 的 HITL
- HITL 现在支持表单解析器。用户可以查看和更正表单解析器提取的键值对,在 DocAI 平台中对表单解析器处理器启用 HITL,并配置他们希望过滤以进行 HITL 审核的键名(如下面的屏幕截图所示)。在 HITL 审核完成后,HITL 输出会保存到客户指定的 Google Cloud Storage 存储桶中的 JSON 文件中。
- 用于在表单解析器上配置 HITL 的界面屏幕截图
- 用于配置键级验证的界面
- Labeler 界面
审核/质量检查流水线
- HITL 现在支持第二阶段质量检查或审核阶段,并报告审核任务(以及加标签者)的准确性。您可以将质量检查团队或审核员分配为任务的“专家标注员”。质量检查团队/审核员将收到已审核文档的 X%(例如 1%-100%,客户可自行配置)。审核员可以更正审核者的输出。系统会跟踪更正情况,并为每个经过审核的文档分配准确度得分(例如 90%)。任务和标签员的总体准确率得分分别在“任务”和“标签员”分析信息中心内报告。以下是有关配置审核流水线的详细说明。
指定审核员
报告准确性
借贷 AI 解析器(7 月 31 日)
- 部分贷款 AI 解析器(包括 1040、1040 附表 E、1040 附表 C、1099 DIV、1099 G、1099 INT、1099 MISC、工资单、银行对账单、W2、W9、1120、1120S、1065、SSA-1099、1099 NEC、1099-R)现已支持 HITL
标准队列与快速通道队列(7 月 2 日)
- 现在,我们为每个处理器支持 2 个优先级队列(之前为 1 个队列),具体取决于每个文档的紧急程度。
- 提交 - 预测完成后,可以评估提取的文档的紧急程度,并根据文档的紧急程度将其提交到 2 个队列(标准队列与紧急/快速通道队列)。例如,到期日临近的紧急账单可以提交到快速处理队列。您可以通过自定义函数输入用于评估紧急程度的逻辑。
- 任务分配 - 标签经理会看到 2 个具有不同优先级的不同队列,如下面的屏幕截图所示,并且可能会将同一组标签员分配给这两个队列。
- 任务优先级 - 分配给这两个任务的标签员始终会先处理快速通道队列中的所有待处理文档,然后再处理标准队列中的文档(即队列优先级由系统自动处理)
- API 调用 - 在 ReviewDocument 中设置 priority 字段
- 界面屏幕截图(Labeling Manager 界面中的任务)
HITL 端点的验证过滤条件(6 月 24 日)
- 用于按置信度过滤字段以确定要排队送交人工审核的文档的验证过滤条件(在处理器中配置)现在也适用于提交到 HITL 端点的文档。
- 调用
ReviewDocument
API 时,请将 enable_schema_validation 字段设置为 true。请注意,如果设置了此参数,并且验证确定文档不需要触发人工审核,则会返回 CANCELLED 错误。
取消 API
您可以针对给定的操作 ID 调用 Cancel API,以取消已排队等待 HITL 处理的文档。[针对提交给 HITL 的每个文档,系统都会返回一个操作 ID]
`POST https://[us|eu]-documentai.googleapis.com/{api_version}/{name=projects/*/operations/*}:cancel`
账单类型(分类审核)
- Labeler Workbench 支持查看“发票类型”分类。
排队时长(HITL 延迟时间 SLO)报告
- 报告会显示有多少文档排队时间超过 18 小时和 24 小时。这对于需要管理 HITL 延迟时间 SLO 预期的用户非常有用。
Labeler Workbench 的已知网址
- 分配到单个池的标记员现在可以通过已知网址 https://datacompute.corp.google.com/w/ 访问工作台。如果您找不到系统或 Labeling Manager 发送的包含网址的电子邮件,这项功能就非常有用。此网址不适用于分配给多个池的标记员。
粘性缩放设置
- 插件现在会记住标记员的缩放设置(全宽与全页),以便在审核队列中的下一个文档时使用,这样标记员就不必为每个文档都进行缩放。