限制
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本文档列出了适用于 Document AI 的系统限制。与配额不同,系统限制无法更改。
内容限制
以下内容限制适用于所有 Document AI 处理器。
内容限制 |
值 |
图片分辨率上限为 (此限制不适用于 PDF 文件) |
4,000 万像素(如果图片包含多个页面,则为每页的像素数)
|
在线处理请求的文件大小上限 |
40 MB |
批量处理请求的文件大小上限 |
1 GB |
每个批处理请求的文件数 |
5,000 个文件 |
处理方限制
限制在当前列表中定义。
分类处理器
数字化处理器
预训练处理器
Document AI 的限制
Document AI 目前存在以下限制。
条件 |
稳定版 - 2023 年 7 月 |
---|
数据集 |
|
文档导入 |
- 每次导入最多可导入 5,000 个文档
- 每个文档最多 200 页
|
训练自定义文档提取器 (CDE) 的限制 |
基于模型的训练 (正式版)
- 训练数据集上限:25,000 份文档;100,000 页
- 训练数据集最低要求:每个标签在每 10 个文档中至少出现 1 次
- 测试数据集上限:2,000 份文档;8,000 页
- 测试数据集最低要求:每个标签至少出现在 10 个文档中
- 每个文档最多 200 页
基于模板的训练(正式版)
- 训练数据集上限:300 份文档,300 页
- 训练数据集最低要求:每个标签至少出现在 3 个文档中
- 测试数据集上限:2,000 份文档;8,000 页
- 测试数据集最低要求:每个标签至少出现在 3 个文档中
- 每个文档最多 20 页
|
训练自定义文档分类器 (CDC) 或自定义文档拆分器 (CDS) 的限制 |
- 训练数据集上限:30,000 份文档;100,000 页
- 训练数据集最低要求:每个标签至少出现在 10 个文档中
- 测试数据集上限:2,000 份文档;8,000 页
- 测试数据集最低要求:每个标签至少出现在 2 个文档中
- 每个文档最多 200 页
|
标签 |
- 首先,请验证文档标签是否满足定义的最低训练和评估阈值。
- 如需开始评估布局各异的文档的模型性能,请为至少 100 份文档添加标签。具体而言,请验证每个标签在训练集中和评估集中是否都存在于 50 个文档中。
- 允许的最大标签(字段)数量:150
- 标签大小限制(字符数):不支持过长的内容,但没有明确的限制。将文档分块为 800 或 1,000 个 token 的块,块之间有 100 到 200 个 token 的重叠。(如果商品长度超过重叠区域,可能会出现质量问题。)
- 文档中的标签出现次数:无限制
|
地理位置覆盖范围 |
- 一般支持的地区:美国、欧盟(多区域)
- 使用受限的地区:德国、新加坡、英国、加拿大、印度、澳大利亚
|
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-09-10。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-09-10。"],[],[],null,[]]