コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
上限
このドキュメントでは、Document AI に適用されるシステムの上限について説明します。割り当てとは異なり、システムの上限は変更できません。
コンテンツの上限
次のコンテンツの上限は、すべての Document AI プロセッサに適用されます。
コンテンツの上限 |
値 |
画像の最大解像度
(PDF ファイルには制限は適用されません) |
40 メガピクセル(画像に複数のページが含まれている場合はページあたり) |
オンライン処理リクエストの最大ファイルサイズ |
20 MB |
バッチ処理リクエストの最大ファイルサイズ |
1 GB |
バッチ処理 リクエストあたりのファイル数 |
5,000 ファイル |
ドキュメントあたりの人間参加型ページ数 |
10 ページ |
プロセッサの上限
上限は現在のリストで定義されます。
分類プロセッサ
プロセッサをデジタル化
事前トレーニング済みプロセッサ
Document AI の制限事項
Document AI には、現在次の制限があります。
条件 |
安定版リリース(2023 年 7 月) |
---|
データセット |
- 最大 30,000 件のドキュメント
- 合計 250,000 ページまで
|
ドキュメントのインポート |
- インポートあたり最大 5,000 件のドキュメント
- ドキュメントあたりの最大ページ数: 200
|
カスタム ドキュメント エクストラクタ(CDE)のトレーニングに関する制限事項 |
モデルベースのトレーニング(一般提供)
- トレーニング データセットの最大数: 25,000 ドキュメント、100,000 ページ
- トレーニング データセットの最小要件: 各ラベルは 10 個のドキュメントに少なくとも 1 回存在する必要があります
- テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
- テストデータセットの最小要件: すべてのラベルが 10 個以上のドキュメントに存在する
- ドキュメントあたりの最大ページ数: 200
テンプレートベースのトレーニング(一般提供)
- トレーニング データセットの上限: 300 件のドキュメント、300 ページ
- トレーニング データセットの最小要件: 少なくとも 3 つのドキュメントにすべてのラベルが存在する
- テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
- テスト データセットの最小要件: すべてのラベルが 3 つ以上のドキュメントに存在する
- ドキュメントあたり最大 20 ページ
|
カスタム ドキュメント分類器(CDC)またはカスタム ドキュメント スプリッター(CDS)をトレーニングするための上限 |
- トレーニング データセットの最大数: 30,000 ドキュメント、100,000 ページ
- トレーニング データセットの最小要件: すべてのラベルが 10 個以上のドキュメントに存在する
- テスト データセットの最大数: 2,000 ドキュメント、8,000 ページ
- テスト データセットの最小要件: すべてのラベルが 2 つ以上のドキュメントに存在する
- ドキュメントあたりの最大ページ数: 200
|
ラベル付け |
- 始める前に、ドキュメントのラベルが定義された最小トレーニングと評価のしきい値を満たしていることを確認します。
- レイアウトが異なるドキュメントのモデルのパフォーマンスの評価を開始するには、少なくとも 100 件のドキュメントにラベルを付けます。具体的には、各ラベルがトレーニングで 50 個のドキュメントに、評価で 50 個のドキュメントに存在するようにします。
- 使用できるラベル(フィールド)の最大数: 150
- ラベルサイズの制限(文字数): 長いアイテムはサポートされていませんが、明示的な制限はありません。ドキュメントを 800 トークンまたは 1,000 トークンのチャンクに分割し、チャンク間で 100 ~ 200 トークンを重複させます。(重複する領域よりも長いアイテムは、品質の問題が発生する可能性があります)。
- ドキュメント内のラベルの出現回数: 制限なし
|
地理的な対象範囲 |
- 一般にサポートされているリージョン: 米国、EU(マルチリージョン)
- 利用できる地域が限定されている国や地域: ドイツ、シンガポール、英国、カナダ、インド、オーストラリア
|
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-03-04 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-03-04 UTC。"],[],[]]