限制

本文档列出了适用于 Document AI 的系统限制。与配额不同,系统限制无法更改。

内容限制

以下内容限制适用于所有 Document AI 处理器。

内容限制
图片分辨率上限
(此限制不适用于 PDF 文件)
4000 万像素(如果图片包含多个页面,则为每页)
在线处理请求的文件大小上限 20 MB
批量处理请求的文件大小上限 1 GB
每个批处理请求的文件数 5,000 个文件
每份文档的人机协同页面数 10 页

处理器限制

限制在当前列表中定义。

提取处理器

处理器 限制
自定义提取器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200
表单解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 100
布局解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 500

分类处理器

处理器 限制
自定义分类器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200
自定义拆分器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 1000

数字化处理器

处理器 限制
企业文档 OCR(光学字符识别)
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 500

预训练处理器

处理器 限制
银行对账单解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 30
W2 解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 15
美国护照解析器
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
实用程序解析器
最多可请求的页面数(在线/同步请求): 10
最多支持的网页数(批量/离线/异步请求): 200
身份证件证明解析器
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
工资单解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 50
美国驾照解析器
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
Expense Parser
最多可请求的页面数(在线/同步请求): 10
最多支持的网页数(批量/离线/异步请求): 10
账单解析器
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200

Document AI 的限制

Document AI 目前存在以下限制。

条件 2023 年 7 月发布的稳定版
数据集
  • 文档总数上限为 3 万个
  • 总页数上限为 25 万页
文档导入
  • 每次导入的文档数量上限为 5,000 个
  • 每个文档的页数上限为 200 页
训练自定义文档提取器 (CDE) 的限制 基于模型的训练(正式版)
  • 训练数据集上限:25,000 个文档;10 万页
  • 训练数据集最低要求:每个标签需要出现在每 10 个文档中至少 1 次
  • 测试数据集上限:2,000 个文档;8,000 页
  • 测试数据集最低要求:每个标签至少有 10 个文档
  • 每个文档的页数上限为 200 页

基于模板的训练(正式版)
  • 训练数据集上限:300 个文档、300 页
  • 训练数据集最低要求:每个标签至少在 3 个文档上出现
  • 测试数据集上限:2,000 个文档;8,000 页
  • 测试数据集最低要求:每个标签至少有 3 个文档
  • 每份文档最多 20 页
训练自定义文档分类器 (CDC) 或自定义文档拆分器 (CDS) 的限制
  • 训练数据集上限:3 万份文档;10 万页
  • 训练数据集最小要求:每个标签至少有 10 个文档
  • 测试数据集上限:2,000 个文档;8,000 页
  • 测试数据集最少要求:每个标签至少有 2 个文档
  • 每个文档的页数上限为 200 页
标签
  • 首先,请确保文档标签符合定义的最低训练和评估阈值。
  • 如需开始评估针对布局变化的文档的模型性能,请为至少 100 份文档添加标签。具体而言,请确保每个标签在训练集中存在于 50 个文档中,在评估集中存在于 50 个文档中。
  • 允许的标签(字段)数量上限:150
  • 标签大小限制(字符):系统不支持长项,但没有明确限制。将文档分块为 800 或 1,000 个令牌的片段,每个分块之间有 100 到 200 个令牌的重叠。(如果商品长度超过重叠区域,可能会出现质量问题。)
  • 文档中的标签出现次数:无限制
地理覆盖范围
  • 通常支持的区域:美国、欧盟(多区域)
  • 仅限部分地区使用:德国、新加坡、英国、加拿大、印度、澳大利亚