分割プロセッサの出力には、信頼スコアなど、入力ドキュメントの分割情報が含まれます。Document AI API は Document
JSON オブジェクトを出力し、出力形式では entities
フィールドを使用してドキュメントの分割を表します。追加情報は、スプリッタのタイプによって異なります。
Entity.type
は、ドキュメントの分類を指定します。識別できるドキュメント タイプの完全なリストについては、次のリストをご覧ください。Entity.pageAnchor.pageRefs[]
は、各サブドキュメントを含むページを指定します。pageRefs[].page
はゼロベースで、document.pages[]
フィールドのインデックスです。
この分割ツールは、30 ページを超える論理ドキュメントを分割するようには設計されていません。30 ページを超える論理ドキュメント(40 ページの銀行取引明細書など)は、2 つ以上のドキュメントに分割され、個別に分類されることがあります。
分割ツールはページの境界を特定しますが、入力ドキュメントを実際に分割するわけではありません。Document AI Toolbox SDK には、スプリッタ プロセッサの出力に基づいて入力ドキュメントを分割できるユーティリティ関数が用意されています。
識別されたドキュメント タイプ
[1] このフォームに対応するパーサーは、このドキュメント タイプをサポートしていません。つまり、スプリッタはこのタイプのドキュメントを識別して分類できますが、Document AI は情報を抽出するパーサーを提供しません。
出力例
プロセッサ | 出力例 |
---|
コードサンプル
分割ツールはページの境界を特定しますが、入力ドキュメントを実際に分割することはありません。Document AI Toolbox を使用して、ページ境界を使用して PDF ファイルを物理的に分割できます。次のコードサンプルは、PDF を分割せずにページ範囲を印刷します。
Java
詳細については、Document AI Java API リファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
詳細については、Document AI Node.js API リファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
詳細については、Document AI Python API リファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Document
のページ境界を使用して PDF ファイルを分割します。Python
詳細については、Document AI Python API リファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。