此页面由 Cloud Translation API 翻译。

基于自定义的提取

借助自定义模型训练和提取功能，您可以构建专门针对您的文档设计的模型，而无需使用生成式 AI。如果您不想使用生成式 AI，并且希望控制训练后模型的所有方面，那么此选项非常适合您。

数据集配置

必须使用文档数据集才能训练、追加训练或评估处理器版本。 Document AI 处理器可以像人类一样从示例中学习。数据集可提升处理器在性能方面的稳定性。

为了改进模型并提高其准确性，请使用您的文档训练数据集。模型由具有标准答案的文档组成。您至少需要三个文档才能训练新模型。

测试数据集是模型用于生成 F1 得分（准确率）的数据集。它由包含标准答案的文档组成。为了了解模型的正确率，系统会使用评估依据将模型的预测结果（从模型中提取的字段）与正确答案进行比较。测试数据集应至少包含 3 个文档。

如果尚未这样做，请启用结算功能和 Document AI API。

首先，构建一个自定义处理器，然后对其进行评估。

创建处理器并定义要提取的字段，这一点非常重要，因为这会影响提取质量。

注意：默认处理器是基础模型。
设置数据集位置：选择默认选项文件夹 Google 管理。这可能会在创建处理器后不久自动完成。
前往构建标签页，然后选择导入文档并启用自动加标签功能（请参阅使用基础模型自动加标签）。您需要在训练集中至少提供 10 个文档，在测试集中至少提供 10 个文档，才能训练自定义模型。
训练模型：
1. 选择训练新版本，然后为处理器版本命名。
2. 前往显示高级选项，然后选择基于模型选项。
注意：训练需要一段时间才能完成。
评估：
- 前往评估和测试，选择您刚刚训练的版本，然后选择查看完整评估结果。
- 现在，您可以看到整个文档和每个字段的指标，例如 F1 得分、精确率和召回率。
- 确定性能是否符合您的生产目标。如果不符合，请重新评估训练集和测试集，通常是将无法很好解析的文档添加到训练测试集中。
将新版本设为默认版本。
1. 前往管理版本。
2. 前往菜单，然后选择设为默认。