上限

このドキュメントでは、Document AI に適用されるシステムの上限について説明します。割り当てとは異なり、システムの上限は変更できません。

コンテンツの上限

次のコンテンツの上限は、すべての Document AI プロセッサに適用されます。

コンテンツの上限
画像の最大解像度
(PDF ファイルには制限は適用されません)
40 メガピクセル(画像に複数のページが含まれている場合はページあたり)
オンライン処理リクエストの最大ファイルサイズ 20 MB
バッチ処理リクエストの最大ファイルサイズ 1 GB
バッチ処理 リクエストあたりのファイル数 5,000 ファイル
ドキュメントあたりの人間参加型ページ数 10 ページ

プロセッサの上限

上限は現在のリストで定義されます。

抽出プロセッサ

プロセッサ 上限
カスタム エクストラクタ
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
Form パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 100
レイアウト パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 500

分類プロセッサ

プロセッサ 上限
カスタム分類器
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
カスタム スプリッター
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 1000

プロセッサをデジタル化

プロセッサ 上限
Enterprise Document OCR(光学式文字認識)
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 500

事前トレーニング済みプロセッサ

プロセッサ 上限
銀行明細書パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 30
W2 パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 15
米国パスポート パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
ユーティリティ パーサー
最大ページ数(オンライン/同期リクエスト): 10
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
身分証明書パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
支払い明細パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 50
米国運転免許証パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
経費パーサー
最大ページ数(オンライン/同期リクエスト): 10
最大ページ数(バッチ/オフライン/非同期リクエスト): 10
請求書パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200

Document AI の制限事項

Document AI には、現在次の制限があります。

条件 安定版リリース(2023 年 7 月)
データセット
  • 最大 30,000 件のドキュメント
  • 合計 250,000 ページまで
ドキュメントのインポート
  • インポートあたり最大 5,000 件のドキュメント
  • ドキュメントあたりの最大ページ数: 200
カスタム ドキュメント エクストラクタ(CDE)のトレーニングに関する制限事項 モデルベースのトレーニング(一般提供)
  • トレーニング データセットの最大数: 25,000 ドキュメント、100,000 ページ
  • トレーニング データセットの最小要件: 各ラベルは 10 個のドキュメントに少なくとも 1 回存在する必要があります
  • テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
  • テストデータセットの最小要件: すべてのラベルが 10 個以上のドキュメントに存在する
  • ドキュメントあたりの最大ページ数: 200

テンプレートベースのトレーニング(一般提供)
  • トレーニング データセットの上限: 300 件のドキュメント、300 ページ
  • トレーニング データセットの最小要件: 少なくとも 3 つのドキュメントにすべてのラベルが存在する
  • テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
  • テスト データセットの最小要件: すべてのラベルが 3 つ以上のドキュメントに存在する
  • ドキュメントあたり最大 20 ページ
カスタム ドキュメント分類器(CDC)またはカスタム ドキュメント スプリッター(CDS)をトレーニングするための上限
  • トレーニング データセットの最大数: 30,000 ドキュメント、100,000 ページ
  • トレーニング データセットの最小要件: すべてのラベルが 10 個以上のドキュメントに存在する
  • テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
  • テスト データセットの最小要件: すべてのラベルが 2 つ以上のドキュメントに存在する
  • ドキュメントあたりの最大ページ数: 200
ラベル付け
  • 始める前に、ドキュメントのラベルが定義された最小トレーニングと評価のしきい値を満たしていることを確認します。
  • レイアウトが異なるドキュメントのモデルのパフォーマンスの評価を開始するには、少なくとも 100 件のドキュメントにラベルを付けます。具体的には、各ラベルがトレーニングで 50 個のドキュメントに、評価で 50 個のドキュメントに存在するようにします。
  • 使用できるラベル(フィールド)の最大数: 150
  • ラベルサイズの制限(文字数): 長いアイテムはサポートされていませんが、明示的な制限はありません。ドキュメントを 800 トークンまたは 1,000 トークンのチャンクに分割し、チャンク間で 100 ~ 200 トークンを重複させます。(重複する領域よりも長いアイテムは、品質の問題が発生する可能性があります)。
  • ドキュメント内のラベルの出現回数: 制限なし
地理的な対象範囲
  • 一般にサポートされているリージョン: 米国、EU(マルチリージョン)
  • 利用できる地域が限定されている国や地域: ドイツ、シンガポール、英国、カナダ、インド、オーストラリア