此页面由 Cloud Translation API 翻译。

创建、使用和管理自定义文档分类器

使用自定义分类器对文档进行分类。使用您自己的文档和自定义类从头开始构建。其生成式 AI 方面的功能支持少样本学习和微调。通过迭代式自动添加标签，提高了少样本场景的准确率及纠错能力。

自定义分类器涵盖以下三种一般用例。

预训练模型：使用预训练的生成式 AI 基础模型，根据您提供的标签快速将文档分类。
微调：通过使用您自己的数据和标签训练生成式 AI 基础模型来提高准确率。
训练自定义模型：使用您自己的数据和标签训练非生成式 AI 自定义提取器。

自定义分类器模型版本

在预览版中，自定义分类器模型支持置信度分数。为获得最佳性能，请将它们与微调后的模型搭配使用。

模型版本	说明	发布渠道	在美国/欧盟境内进行机器学习处理	在美国/欧盟境内进行微调	发布日期
`pretrained-foundation-model-v1.4-2025-05-16`	由 Gemini 2.0 Flash LLM 提供支持的候选版本。还包括高级 OCR 功能。	候选版本	是	美国及欧盟境内（预览版）	2025 年 5 月 16 日
`pretrained-classifier-v1.5-2025-08-05`	由 Gemini 2.5 Flash LLM 提供支持的候选版本。还包括高级 OCR 功能。	候选版本	是	美国及欧盟境内（预览版）	2025 年 8 月 5 日

在 Google Cloud 控制台中创建自定义分类器

您可以创建专门适合您的文档使用的自定义分类器，并使用您的数据进行训练和评估。该处理器负责从用户定义的类集中识别文档的类。之后，您便可以将此经过训练的处理器用于其他文档。您通常会对不同类型的文档使用自定义分类器，然后使用该标识将文档传递给提取处理器，以提取实体。

如需了解创建和使用处理器的常规流程，请参阅操作指南部分。

您可以根据自己的工作流自行选择配置。

如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导，请点击操作演示：

操作演示

准备工作

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Document AI, Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Document AI, Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

创建处理器

完成以下步骤。

前往 Workbench
对于自定义文档分类器，请选择创建处理器。
在创建处理器菜单中，输入处理器的名称，例如 my-custom-document-classifier。
选择离您最近的区域。
选择创建。系统随即会显示处理器详情标签页。

配置数据集

如需训练新处理器，您必须创建一个包含训练和测试数据的数据集，以帮助处理器识别您要拆分和分类的文档。此数据集需要新位置。此位置可以是空的 Cloud Storage 存储桶或文件夹，也可以允许使用内部管理的位置。

处理器详情标签页出现后，您可以执行以下操作：

如果您要使用 Cloud Storage，请选择由 Google 管理的存储空间。
如果您要使用自己的存储空间来使用客户管理的加密密钥 (CMEK)，请选择我将指定自己的存储位置，然后按照创建数据集中的步骤操作。

custom-classifier-3

将文档导入数据集

接下来，您需要将文档导入数据集。

在构建标签页上，选择导入文档。
选择使用存储桶时，您必须输入相应存储桶的来源路径。在此训练示例中，请在来源路径中输入此存储桶的名称。这可直接链接到一个文档。
```
cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
```
对于数据拆分，选择未分配。此文件夹中的文档既未分配给测试集，也未分配给训练集。请不要勾选使用自动添加标签功能导入。
选择导入。 Document AI 将存储桶中的文档读入数据集。它不会修改导入存储桶，也不会在导入完成后从存储桶读取数据。
（可选）如需删除导入的文档，请在构建标签页中，前往管理数据集 > 选择相应文档 > 点击删除。

导入文档时，可以选择性地在导入后将文档分配给训练或测试集，或者等待稍后再分配这些文档。

如需详细了解如何准备要导入的数据，请参阅数据准备指南。

定义处理器架构

在将文档导入数据集之前或之后都可以创建处理器架构。该架构提供了用于为文档添加注释的标签。

在构建标签页上，依次选择管理数据集 > 修改架构。系统随即会打开修改架构页面。
选择创建标签。
为标签输入一个名称。
选择创建。如需详细了解如何创建和修改架构，请参阅定义处理器架构。

注意：训练处理器后，无法删除标签。不过，您可以停用不想使用的任何标签。
为处理器架构创建以下每个标签。
- computer_vision
- crypto
- med_tech
- other
提示：您可以使用说明字段输入描述标签的提示。这有助于训练模型并区分相似的标签。如需了解详情，请参阅带有属性说明的标签。
标签设置完成后，选择保存。

为文档加标签

选择文档中的特定文本并为其添加标签的过程也称为“加注解”。

返回构建标签页，然后选择一个文档以打开管理数据集控制台。
在选项中，为文档选择合适的标签。如果您使用的是我们提供的示例文档，请选择 computer_vision。

添加标签后，文档应如下所示：
完成为文档添加注解后，选择标记为已加标签。

在管理数据集标签页上，您可以在文档面板中看到，有一个文档已加了标签。

将已添加注解的文档分配给训练集

现在，您已为此示例文档添加了标签，接下来可以将其分配给训练集。

在管理数据集标签页上，选中全选复选框。
从分配给集合列表中，选择训练。

在文档面板中，您可以看到有一个文档已分配给训练集。

将预先加标签的数据导入训练集和测试集

在本指南中，我们已为您提供了预先加标签的数据。但如果您处理的是自己的项目，则必须确定如何为您的数据添加标签。请参阅标签选项。

Document AI 自定义处理器要求在训练集和测试集中，每种要添加标签的文档类型至少有一个文档。为了获得最佳性能，我们建议您为每个标签提供至少 10 个文档。那么，如果有 5 个标签，则需要 50 个文档用于训练，50 个文档用于测试。通常，训练数据越多，准确率就越高。

选择导入文档。
在来源路径中输入以下路径。此存储桶包含文档 JSON 格式的预先添加标签的文档。
```
cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
```
在数据拆分列表中，选择自动拆分。这会自动拆分文档，使其数据在训练集中占 80%，在测试集中占 20%。忽略应用标签部分。
选择导入。导入可能需要几分钟才能完成。

导入完成后，您将能够在管理数据集标签页中找到这些文档。

在导入时为文档批量添加标签

（可选）配置架构后，您可以在导入时给特定目录中的所有文档添加标签，以节省添加标签的时间。

custom-classifier-9

选择导入文档。
在来源路径中输入以下路径。此存储桶包含 PDF 格式的未加标签文档。
```
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
```
在数据拆分列表中，选择自动拆分。这会自动拆分文档，使其数据在训练集中占 80%，在测试集中占 20%。
在应用标签部分，选中选择标签。
对于这些示例文档，请选择 other。
选择导入，然后等待过程完成。您可以暂时离开此页面，稍后再返回来查看。完成后，您可以在管理数据集标签页上看到，这些文档已加了标签。

训练处理器

现在，您已导入训练和测试数据，接下来就可以训练处理器了。由于训练过程可能需要花费数小时，因此在开始训练之前，请确保您已使用适当的数据和标签设置处理器。

您可以使用加了标签的数据训练微调模型和自定义模型。微调模型使用生成式 AI。自定义模型则会使用您加了标签的数据来训练独特的大语言模型。您需要在架构中至少添加两个标签，并且建议您提供 10 个训练文档和 10 个测试文档（最少各 1 个）。

选择训练新版本。

在版本名称字段中，输入此处理器版本的名称，例如 my-cdc-version-1。
可选：选择查看标签统计信息，找到文档标签的相关信息，来帮助确定覆盖范围。选择关闭即可返回训练设置。
选择开始训练。您可以在侧边栏中查看状态。

部署处理器版本

训练完成后，转到管理版本标签页。您可以查看刚刚训练的版本的详细信息。
选择要部署的版本旁边的，然后选择部署版本。
从对话框窗口中选择部署。

部署需要几分钟才能完成。

评估和测试处理器

部署完成后，转到评估和测试标签页。

在此页面上，您可以查看完整文档以及各个标签的各项评估指标，包括 F1 得分、精确率和召回率。如需详细了解评估及统计信息，请参阅评估处理器。
下载之前训练或测试中未涉及的文档，以便使用它来评估处理器版本。如果您使用自己的数据，则可以使用为此目的预留的文档。

下载 PDF 文件
选择上传测试文档，然后选择您刚刚下载的文档。

系统随即会打开自定义文档分类器分析页面。输出会展示文档的分类效果。

您也可以针对其他测试集或处理器版本重新运行评估。

为新导入的文档自动添加标签

部署经过训练的处理器版本后，您可以在导入新文档时使用自动加标签功能来节省加标签的时间。

在管理数据集页面上，点击导入文档。
复制并粘贴下面的 Cloud Storage 路径。该目录包含 5 个没有加标签的专利 PDF 文件。在数据拆分下拉列表中，选择训练。
```
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
```
在应用标签部分中，选择自动添加标签。
选择现有处理器版本，以便为文档添加标签。
- 例如：2af620b2fd4d1fcf
选择导入，然后等待过程完成。您可以暂时离开此页面，稍后再返回来查看。完成后，文档会显示在管理数据集页面的已自动加标签部分中。
您不能使用自动加标签的文档进行训练或测试，除非将其标记为已加标签。找到已自动加标签部分以查看自动加标签的文档。
选择第一个文档以进入标签控制台。
请验证该标签，确保其正确无误。如果不正确，请进行调整。
完成后，选择标记为已加标签。
为每个自动加标签的文档重复标签验证流程，然后返回管理数据集页面以分配用于训练的数据。

使用处理器

您可以像管理任何其他处理器版本一样管理自定义训练的处理器版本。如需了解详情，请参阅管理处理器版本。

您也可以向自定义处理器发送处理请求，并且响应的处理方式可以与其他分类器处理器相同。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用，请按照以下步骤操作。

在 Google Cloud 控制台导航菜单中，依次选择 Document AI 和我的处理器。
选择要删除的处理器所在行中的更多操作。
选择删除处理器，输入处理器名称，然后再次选择删除进行确认。

后续步骤

如需了解详情，请参阅指南。
查看处理器列表。
使用布局解析器将文档分成多个可读区块。
使用 Enterprise Document OCR 检测和提取文本。

自定义拆分器