使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
限制
本文档列出了适用于 Document AI 的系统限制。与配额不同,系统限制无法更改。
内容限制
以下内容限制适用于所有 Document AI 处理器。
内容限制 |
值 |
图片分辨率上限 (此限制不适用于 PDF 文件) |
4000 万像素(如果图片包含多个页面,则为每页)
|
在线处理请求的文件大小上限 |
20 MB |
批量处理请求的文件大小上限 |
1 GB |
每个批处理请求的文件数 |
5,000 个文件 |
每份文档的人机协同页面数 |
10 页 |
处理器限制
限制在当前列表中定义。
分类处理器
数字化处理器
预训练处理器
Document AI 的限制
Document AI 目前存在以下限制。
条件 |
2023 年 7 月发布的稳定版 |
---|
数据集 |
- 文档总数上限为 3 万个
- 总页数上限为 25 万页
|
文档导入 |
- 每次导入的文档数量上限为 5,000 个
- 每个文档的页数上限为 200 页
|
训练自定义文档提取器 (CDE) 的限制 |
基于模型的训练(正式版)
- 训练数据集上限:25,000 个文档;10 万页
- 训练数据集最低要求:每个标签需要出现在每 10 个文档中至少 1 次
- 测试数据集上限:2,000 个文档;8,000 页
- 测试数据集最低要求:每个标签至少有 10 个文档
- 每个文档的页数上限为 200 页
基于模板的训练(正式版)
- 训练数据集上限:300 个文档、300 页
- 训练数据集最低要求:每个标签至少在 3 个文档上出现
- 测试数据集上限:2,000 个文档;8,000 页
- 测试数据集最低要求:每个标签至少有 3 个文档
- 每份文档最多 20 页
|
训练自定义文档分类器 (CDC) 或自定义文档拆分器 (CDS) 的限制 |
- 训练数据集上限:3 万份文档;10 万页
- 训练数据集最小要求:每个标签至少有 10 个文档
- 测试数据集上限:2,000 个文档;8,000 页
- 测试数据集最少要求:每个标签至少有 2 个文档
- 每个文档的页数上限为 200 页
|
标签 |
- 首先,请确保文档标签符合定义的最低训练和评估阈值。
- 如需开始评估针对布局变化的文档的模型性能,请为至少 100 份文档添加标签。具体而言,请确保每个标签在训练集中存在于 50 个文档中,在评估集中存在于 50 个文档中。
- 允许的标签(字段)数量上限:150
- 标签大小限制(字符):系统不支持长项,但没有明确限制。将文档分块为 800 或 1,000 个令牌的片段,每个分块之间有 100 到 200 个令牌的重叠。(如果商品长度超过重叠区域,可能会出现质量问题。)
- 文档中的标签出现次数:无限制
|
地理覆盖范围 |
- 通常支持的区域:美国、欧盟(多区域)
- 仅限部分地区使用:德国、新加坡、英国、加拿大、印度、澳大利亚
|
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-18。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-18。"],[],[]]