创建、使用和管理自定义文档分类器

使用自定义分类器对文档进行分类。使用您自己的文档和自定义类从头开始构建。其生成式 AI 方面支持少样本训练和微调。这些模型通过迭代式自动添加标签,以更少的样本和更正来提高准确率。

自定义分类器模型版本

模型版本 说明 发布渠道 美国/欧盟境内的机器学习处理 在美国/欧盟进行微调 发布日期
pretrained-foundation-model-v1.4-2025-06-16 由 Gemini 2.0 Flash LLM 提供支持的正式版候选版本。还包括复选框检测等高级 OCR 功能。 稳定版 美国、欧盟(预览版 2025 年 6 月 16 日

在 Google Cloud 控制台中创建自定义分类器

您可以创建专门适合您的文档使用的自定义分类器,并使用您的数据进行训练和评估。该处理器负责从用户定义的类集中识别文档的类。之后,您便可以将此经过训练的处理器用于其他文档。您通常会对不同类型的文档使用自定义分类器,然后使用该标识将文档传递给提取处理器,以提取实体。

如需了解创建和使用处理器的常规流程,请参阅操作指南部分。

您可以根据自己的工作流自行选择配置。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  8. 创建处理器

    完成以下步骤。

    1. 前往 Google Cloud 控制台,然后选择: Workbench

    2. 对于自定义文档分类器,请选择创建处理器

      custom-classifier-1

    3. 创建处理器菜单中,输入处理器的名称,例如 my-custom-document-classifier

      custom-classifier-2

    4. 选择离您最近的区域。

    5. 选择创建。系统随即会显示处理器详情标签页。

    配置数据集

    如需训练新处理器,您必须创建一个包含训练和测试数据的数据集,以帮助处理器识别您要拆分和分类的文档。此数据集需要新位置。此位置可以是空的 Cloud Storage 存储桶或文件夹,也可以允许使用内部管理的位置。

    处理器详情标签页出现后,您可以执行以下操作:

    1. 如果您要使用 Cloud Storage,请选择由 Google 管理的存储空间
    2. 如果您要使用自己的存储空间来使用客户管理的加密密钥 (CMEK),请选择我将指定我自己的存储位置,然后按照创建数据集中的步骤操作。

    custom-classifier-3

    将文档导入数据集

    接下来,您需要将文档导入数据集。

    1. 构建标签页上,选择导入文档

      custom-classifier-6

    2. 选择使用存储桶时,您必须输入相应存储桶的源路径。在此训练示例中,请在来源路径中输入此存储桶名称。这可直接链接到一个文档。

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. 对于数据拆分,选择未分配。此文件夹中的文档既未分配给测试集,也未分配给训练集。请不要勾选使用自动添加标签功能导入

    4. 选择导入。 Document AI 将存储桶中的文档读入数据集。它不会修改导入存储桶,也不会在导入完成后从存储桶读取数据。

    5. (可选)如需删除导入的文档,请在构建标签页中,依次前往管理数据集 > 选择相应文档 > 点击删除

    导入文档时,可以选择性地在导入后将文档分配给训练测试集,或者等待稍后再分配这些文档。

    如需详细了解如何准备要导入的数据,请参阅数据准备指南

    定义处理器架构

    在将文档导入数据集之前或之后都可以创建处理器架构。该架构提供了用于为文档添加注释的标签。

    1. 构建标签页上,依次选择管理数据集 > 修改架构。 系统随即会打开修改架构页面。

    2. 选择创建标签

    3. 为标签输入一个名称。

    4. 选择创建。如需详细了解如何创建和修改架构,请参阅定义处理器架构

    5. 为处理器架构创建以下每个标签。

      • computer_vision
      • crypto
      • med_tech
      • other
    6. 标签设置完成后,选择保存

      custom-classifier-7

    为文档加标签

    选择文档中的特定文本并为其添加标签的过程也称为“加注解”。

    1. 返回构建标签页,然后选择一个文档以打开管理数据集控制台。

    2. 选项中,为文档选择合适的标签。 如果您使用的是我们提供的示例文档,请选择 computer_vision

      添加标签后,文档应如下所示:custom-classifier-8

    3. 完成为文档添加注解后,选择标记为已加标签

      管理数据集标签页上,文档面板会显示已标记一个文档。

    将已添加注解的文档分配给训练集

    现在,您已为此示例文档添加了标签,接下来可以将其分配给训练集。

    1. 管理数据集标签页上,选中全选复选框。

    2. 分配给集合列表中,选择训练

    文档面板中,您可以看到系统已将 1 个文档分配给训练集。

    将预先加标签的数据导入训练集和测试集

    在本指南中,我们已为您提供了预先加标签的数据。但如果您处理的是自己的项目,则必须确定如何为您的数据添加标签。请参阅标签选项

    Document AI 自定义处理器要求在训练集和测试集中,每种要添加标签的文档类型至少有一个文档。为了获得最佳性能,我们建议您为每个标签提供至少 10 个文档。对于 5 个标签,您需要 50 个文档用于训练,50 个文档用于测试。通常,训练数据越多,准确性就越高。

    1. 选择导入文档

    2. 来源路径中输入以下路径。此存储桶包含文档 JSON 格式的预先添加标签的文档。

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. 数据拆分列表中,选择自动拆分。这会自动拆分文档,使其数据在训练集中占 80%,在测试集中占 20%。忽略应用标签部分。

    4. 选择导入。 导入可能需要几分钟才能完成。

    导入完成后,您会在管理数据集标签页中找到这些文档。

    在导入时为文档批量添加标签

    (可选)配置架构后,您可以在导入时给特定目录中的所有文档添加标签,以节省添加标签的时间。

    custom-classifier-9

    1. 选择导入文档

    2. 来源路径中输入以下路径。此存储桶包含 PDF 格式的未加标签文档。

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. 数据拆分列表中,选择自动拆分。这会自动拆分文档,使其数据在训练集中占 80%,在测试集中占 20%。

    4. 应用标签部分,选中选择标签

    5. 对于这些示例文档,请选择 other

    6. 选择导入,然后等待过程完成。您可以暂时离开此页面,稍后再返回来查看。 完成后,您会在管理数据集标签页上找到应用了标签的文档。

    训练处理器

    现在,您已导入训练和测试数据,接下来就可以训练处理器了。 由于训练过程可能需要几个小时,因此在开始训练之前,请确保您已使用适当的数据和标签设置处理器。

    您可以使用带标签的数据训练微调模型和自定义模型。微调后的模型使用生成式 AI。自定义模型会使用您的带标签数据训练独特的大语言模型。您需要在架构中至少添加两个标签,建议提供 10 个训练文档和 10 个测试文档(最少 1 个)。

    1. 选择训练新版本
    custom-classifier-10
    1. 版本名称字段中,输入此处理器版本的名称,例如 my-cdc-version-1

    2. 可选:选择查看标签统计信息,找到有助于确定覆盖面的文档标签的相关信息。选择关闭即可返回训练设置。

    3. 选择开始训练 您可以在侧边栏中查看状态。

    部署处理器版本

    1. 训练完成后,转到管理版本标签页。您可以查看刚刚训练的版本的详细信息。

    2. 选择要部署的版本旁边的 ,然后选择部署版本

    3. 从对话框窗口中选择部署

      部署需要几分钟才能完成。

    评估和测试处理器

    1. 部署完成后,转到评估和测试标签页。

      在此页面上,您可以查看完整文档以及各个标签的各项评估指标,包括 F1 得分、精确率和召回率。如需详细了解评估及统计信息,请参阅评估处理器

    2. 下载之前训练或测试中未涉及的文档,以便使用它来评估处理器版本。如果您使用自己的数据,则可以使用为此目的预留的文档。

      下载 PDF 文件

    3. 选择上传测试文档,然后选择您刚刚下载的文档。

      系统随即会打开自定义文档分类器分析页面。输出会展示文档的分类效果。

      您也可以针对其他测试集或处理器版本重新运行评估。

    为新导入的文档自动添加标签

    部署经过训练的处理器版本后,您可以在导入新文档时使用自动加标签功能来节省加标签的时间。

    1. 管理数据集页面上,点击导入文档

    2. 复制并粘贴下面的 Cloud Storage 路径。该目录包含 5 个没有加标签的专利 PDF 文件。在数据拆分下拉列表中,选择训练

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. 应用标签部分中,选择自动添加标签

    4. 选择现有处理器版本,以便为文档添加标签。

      • 例如:2af620b2fd4d1fcf
    5. 选择导入,然后等待过程完成。您可以暂时离开此页面,稍后再返回来查看。完成后,文档会显示在管理数据集页面的已自动加标签部分中。

    6. 您不能使用自动加标签的文档进行训练或测试,除非将其标记为已加标签。找到已自动加标签部分以查看自动加标签的文档。

    7. 选择第一个文档以进入标签控制台。

    8. 请验证该标签,确保其正确无误。如果不正确,请进行调整。

    9. 完成后,选择标记为已加标签

    10. 为每个自动加标签的文档重复标签验证,然后返回管理数据集页面以分配用于训练的数据。

    使用处理器

    您可以像管理任何其他处理器版本一样管理自定义训练的处理器版本。如需了解详情,请参阅管理处理器版本

    您还可以向自定义处理器发送处理请求,并且响应的处理方式可以与其他分类器处理器相同

    清理

    为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

    1. 在 Google Cloud 控制台导航菜单中,依次选择 Document AI我的处理器

    2. 选择要删除的处理器所在行中的更多操作

    3. 选择删除处理器,输入处理器名称,然后再次选择删除进行确认。

    后续步骤