为文档加标签
必须使用加标签的文档数据集才能训练、追加训练或评估处理器版本。
本页介绍了如何将处理器架构中的标签应用于数据集中导入的文档。
本页面假定您已创建支持训练、追加训练或评估的处理器。如果您的处理器受支持,您现在会在 Google Cloud 控制台中看到训练标签页。此外,假设您已创建数据集、导入文档并定义了处理器架构。
用于生成式 AI 提取的名称字段
字段的命名方式会影响使用生成式 AI 提取字段的准确性。我们建议您在为字段命名时遵循以下最佳实践:
使用文档中用于描述该字段的语言为字段命名:例如,如果文档中有一个字段描述为
Employer Address
,则将该字段命名为employer_address
。请勿使用emplr_addr
等缩写。字段名称目前不支持空格:请改用
_
,而不是空格。例如:First Name
将被命名为first_name
。迭代名称以提高准确性:Document AI 有一个限制,即不允许更改字段名称。如需测试不同的名称,请使用重命名实体名称工具将数据集中旧实体的名称更新为较新的名称,导入数据集,在处理器中启用新实体,然后停用或删除现有字段。
标签选项
您可以通过以下方式为文档添加标签:
手动:在 Google Cloud 控制台中手动为文档添加标签
自动加标签:使用现有处理器版本生成标签
导入预先添加标签的文档:如果您已经为文档添加了标签,可以节省时间
在 Google Cloud 控制台中手动添加标签
在训练标签页中,选择一个文档以打开标记工具。
在标注工具左侧的架构标签列表中,选择“添加”符号以选择边界框工具,突出显示文档中的实体并将其分配给标签。
在以下屏幕截图中,文档中的 EMPL_SSN
EMPLR_ID_NUMBER
、EMPLR_NAME_ADDRESS
、FEDERAL_INCOME_TAX_WH
、SS_TAX_WH
、SS_WAGES
和 WAGES_TIPS_OTHER_COMP
字段已分配标签。
使用边界框工具选择复选框实体时,请仅选择复选框本身,而不要选择任何关联的文本。确保左侧显示的复选框实体处于选中或未选中状态,以与文档中的内容一致。
为父子实体添加标签时,请勿为父实体添加标签。父实体只是子实体的容器。仅标记子实体。 父级实体会自动更新。
为子实体添加标签时,请先为第一个子实体添加标签,然后将相关子实体与该行相关联。您会在首次为此类实体添加标签时,在第二个子实体中注意到这一点。例如,对于账单,如果您标记说明,它看起来就像任何其他实体。不过,如果您接下来为数量添加标签,系统会提示您选择父级。
针对每个新订单项,选择新建父级实体,以便针对每个订单项重复此步骤。
父子实体是一项预览版功能,仅适用于嵌套层级为 1 的表格。基础模型支持三层级字段(祖父级、父级、子级),因此子实体可以有一个子级。
速查表
为表格添加标签时,如果反复为每一行添加标签,可能会很繁琐。有一个非常方便的工具可以复制行实体结构。请注意,此功能仅适用于水平对齐的行。
- 首先,照常为第一行添加标签。
然后,将指针悬停在代表该行的父实体上。选择添加更多行。该行会成为用于创建更多行的模板。
选择表格的其余区域。
该工具会推断注释,通常能起到作用。对于它无法处理的任何表,请手动为其添加注解。
在控制台中使用键盘快捷键
如需查看可用的键盘快捷键,请选择标注控制台右上角的
菜单。它会显示键盘快捷键列表,如下表所示。操作 | 快捷键 |
---|---|
放大 | Alt + =(在 macOS 上为 Option + =) |
缩小 | Alt + -(在 macOS 上为 Option + -) |
缩放至合适大小 | Alt + 0(在 macOS 上为 Option + 0) |
滚动即可缩放 | Alt + 滚动(在 macOS 上为 Option + 滚动) |
平移 | 滚动 |
已撤消的平移 | Shift + 滚动 |
拖动进行平移 | 空格键 + 鼠标拖动 |
撤消 | Ctrl + Z(在 macOS 上为 Control + Z) |
重做 | Ctrl + Shift + Z(在 macOS 上为 Control + +Shift + Z) |
自动添加标签
如果有,您可以使用处理器的现有版本开始添加标签。
您可以在import期间启动自动标签功能。所有文档均使用指定的处理器版本添加注释。
在import后,系统可以为未加标签或已自动加标签类别的文档启动自动加标签功能。系统会使用指定的处理器版本为所有所选文档添加注释。
您不能使用自动加标签的文档进行训练或增量训练,也不能将其用于测试集,除非将其标记为已加标签。手动检查并更正自动标注的注释,然后选择标记为已标注以保存更正内容。然后,您可以根据需要分配文档。
导入预先添加标签的文档
您可以导入 JSON Document
文件。如果文档中的 entity
与处理器架构中的标签匹配,则导入程序会将 entity
转换为标签实例。您可以通过多种方式获取 JSON 文档文件:
为文档添加标签的最佳实践
为了训练出高质量的处理器,必须使用一致的标签。我们建议您:
创建标注说明:说明应包含常见情况和极端情况的示例。一些提示:
- 说明应为哪些字段添加注释,以及如何确保标注一致。例如,在标记“金额”时,请指定是否应标记货币符号。如果标签不一致,则处理器质量会降低。
- 为实体的所有出现情况添加标签,即使标签类型为
REQUIRED_ONCE
或OPTIONAL_ONCE
也是如此。例如,如果invoice_id
在文档中出现两次,请为其所有出现情况添加标签。 - 通常,建议先使用默认的边界框工具进行标注。如果失败,请使用文本选择工具。
- 如果 OCR 未正确检测到标签的值,请勿手动更正该值。这会导致其无法用于训练用途。
以下是一些标签说明示例:
- 培训注释者:确保注释者了解并能够遵循准则,没有任何系统性错误。为此,一种方法是让不同的学员为同一组文档添加注释。然后,培训师可以检查每位学员的注解工作质量。您可能需要重复此过程,直到学员达到基准水平的准确性为止。
- 初始审核:在为大量文档标注用例之前,应先审核新标注者为某个用例标注的前几份(大约 10 份)文档,以免出现大量需要更正的错误。
- 注解质量审核:鉴于注解工作非常繁琐,即使训练有素的注解者也可能会出错。我们建议至少由一名训练有素的注释者检查注释。
重新同步数据集
重新同步可确保数据集的 Cloud Storage 文件夹与 Document AI 的元数据内部索引保持一致。如果您不小心更改了 Cloud Storage 文件夹,并希望同步数据,此功能非常有用。
如需重新同步,请执行以下操作:
在处理器详细信息标签页中,选择“存储位置”行旁边的
,然后选择重新同步数据集。使用说明:
- 如果您从 Cloud Storage 文件夹中删除文档,重新同步会将其从数据集中移除。
- 如果您向 Cloud Storage 文件夹添加了文档,重新同步不会将其添加到数据集中。如需添加文档,请将其导入。
- 如果您修改 Cloud Storage 文件夹中的文档标签,重新同步会更新数据集中的文档标签。
迁移数据集
借助导入和导出功能,您可以将数据集中的所有文档从一个处理器移至另一个处理器。如果您在不同的区域或 Google Cloud 项目中拥有不同的处理器,或者您有不同的处理器用于预演环境和生产环境,或者用于常规离线使用,此功能会很有用。
请注意,系统只会导出文档及其标签。数据集元数据(例如处理器架构、文档分配 [训练/测试/未分配] 和文档标记状态 [已标记、未标记、自动标记])不会导出。
复制并导入数据集,然后训练目标处理器与训练源处理器并不完全相同。这是因为训练过程开始时使用的是随机值。使用 importProcessorVersion
API 调用在项目之间导入-迁移完全相同的模型。如果政策允许,将处理器迁移到更高级别的环境(例如从开发环境迁移到预演环境再迁移到生产环境)时,最好采用此做法。
导出数据集
如需将所有文档以 JSON Document
文件的形式导出到 Cloud Storage 文件夹,请选择导出数据集。
请注意以下几点重要事项:
导出过程中,系统会创建三个子文件夹:Test、Train 和 Unassigned。您的文档会相应地放入这些子文件夹中。
文档的标记状态不会导出。如果您日后导入这些文档,系统不会将其标记为自动标记。
如果您的 Cloud Storage 位于其他 Google Cloud 项目中,请务必授予访问权限,以便 Document AI 可以将文件写入该位置。具体而言,您必须向 Document AI 的核心服务代理
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
授予 Storage Object Creator 角色。如需了解详情,请参阅服务代理。
导入数据集
该流程与导入文档相同。
选择性标记用户指南
选择性标记有助于系统推荐要为哪些文档添加标签。您可以创建多样化的训练和测试数据集,以训练具有代表性的模型。每次执行选择性标记时,系统都会从数据集中选择最具多样性的文档(最多 30 个)。
获取建议的文档
创建 CDE 处理器并导入文档。
- 训练集至少需要 100 个示例(测试集需要 25 个示例)。
- 导入足够的文档并选择性添加标签后,系统应会显示信息栏。
如果 CDE 处理器没有建议任何文档,请导入更多文档,以便在任一分块中都包含足够的文档以进行抽样。
- 这应该会在建议类别中启用建议文档。您应该能够手动请求系统提供建议的文件。
- 顶部新增了一个过滤器,用于滤除建议的文档。
为建议的文档加标签
前往左侧标签列表面板中的建议的类别。开始为这些文档添加标签。
如果处理器已训练完毕,请在信息栏中选择自动标记。为建议的文档添加标签。
然后,当处理器中显示建议您前往的文档时,您可以选择该栏中的立即查看。所有自动标记的文档都应经过审核,以确保准确无误。开始审核。
在为所有建议的文档添加标签后进行训练
前往信息栏中的立即训练。为建议的文档添加标签后,您应该会看到以下建议进行训练的信息栏。
支持的功能和限制
功能 | 说明 | 支持 |
---|---|---|
支持旧版处理器 | 可能不适用于使用之前导入的数据集的旧处理器 |