ドキュメント スプリッターの動作
分割プロセッサの出力には、信頼スコアなど、入力ドキュメントの分割情報が含まれます。Document AI API は Document
JSON オブジェクトを出力します。出力形式では、ドキュメントの分割を表すために entities
フィールドを使用します。追加情報は、分割機の種類によって異なります。
Entity.type
は、ドキュメントの分類を指定します。識別可能なドキュメント タイプの一覧については、次のリストをご覧ください。Entity.pageAnchor.pageRefs[]
には、各サブドキュメントを含むページを指定します。pageRefs[].page
はゼロベースで、document.pages[]
フィールドのインデックスです。
分割ツールは、30 ページを超える論理ドキュメントを分割するようには設計されていません。30 ページを超える論理ドキュメント(40 ページの銀行明細書など)は、2 つ以上のドキュメントに分割して個別に分類できます。
分割ツールはページ境界を特定しますが、実際に入力ドキュメントを分割することはありません。Document AI Toolbox SDK には、分割ツール プロセッサの出力に基づいて入力ドキュメントを分割できるユーティリティ関数が用意されています。
検出されたドキュメントの種類
[1] このフォームに対応するパーサーが、このドキュメント タイプをサポートしていません。つまり、このタイプのドキュメントを分割して分類することはできますが、Document AI には情報を抽出するパーサーはありません。
出力の例
プロセッサ | 出力サンプル |
---|
コードサンプル
分割ツールはページ境界を特定しますが、実際に入力ドキュメントを分割することはありません。Document AI Toolbox を使用して、ページ境界を使用して PDF ファイルを物理的に分割できます。次のコードサンプルは、PDF を分割せずにページ範囲を出力します。
Java
詳細については、Document AI Java API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
詳細については、Document AI Node.js API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
詳細については、Document AI Python API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Document
のページ境界を使用して PDF ファイルを分割します。Python
詳細については、Document AI Python API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。