このドキュメントでは、Document AI の使用に関する基本的なコンセプトについて説明します。他のドキュメントやクイックスタートに進む前に、このページをお読みください。
ドキュメント処理ワークフローを自動化する
世界中の企業は、情報を保存し伝達するためにドキュメントに大きく依存しています。この情報は、多くの場合、有用なものにするためにデジタル化する必要があります。ただし、通常、これは時間のかかる手動プロセスによって行われます。
次に例を示します。
- 電子書籍リーダー用の書籍をデジタル化します。
- 診療所での問診票の処理。
- 経費レポートの検証のために領収書と請求書を解析します。
- ID カードに基づく身元確認。
- ローンの承認のために税務申告書から収入情報を抽出する。
- 主要なビジネス契約条件の契約を理解する。
これらのワークフローでは、ドキュメントから未加工のテキストを取得し、必要なデータ(フィールドまたはエンティティ)に対応する特定のテキストを抽出します。ただし、ドキュメント タイプごとに構造とレイアウトが異なり、フィールドのパターンは特定のユースケースによって異なります。
Document AI コンポーネント
Document AI は、ドキュメントから非構造化データを取り出して構造化データ(データベースに適した特定のフィールド)に変換し、ドキュメントを簡単に理解、分析、利用できるようにする、ドキュメント処理と理解のためのプラットフォームです。
Document AI は、Vertex AI 内のプロダクトを基盤として、生成 AI を使用して構築されています。これにより、ML の専門知識がなくても、スケーラブルなエンドツーエンドのクラウドベースのドキュメント処理アプリケーションを作成できます。
Document AI を使用すると、次のことができます。
- OCR を使用してドキュメントをデジタル化し、テキスト、レイアウト、さまざまなアドオン(画像品質の検出(読みやすさのため)、自動傾き補正など)を取得します。
- ドキュメント ファイルからテキストとレイアウト情報を抽出し、エンティティを正規化します。
- 構造化されたフォームと通常の表で Key-Value ペア(kvp)を識別します。たとえば、
Name: Jill Smith
は kvp です。 - ドキュメント タイプを分類して、抽出や保存などのダウンストリーム プロセスを推進します。
- ドキュメントをタイプ別に分割して分類します。たとえば、複数の実際のドキュメントを含む PDF ファイルなどです。
- 自動ラベル付け、スキーマ管理、ドキュメントや予測のレビューなどのデータセット管理機能を使用して、ファインチューニングとモデル評価で使用するデータセットを準備します。
- Cloud Storage、BigQuery、Vertex AI Search などのプロダクトと統合して、ドキュメントとメタデータの保存、検索、整理、管理、分析を行うことができます。
この図は、Document AI でサポートされている主要なドキュメント処理手順と、それらの手順がどのように連携するかを示しています。
プロセッサ
Document AI プロセッサは、ドキュメント ファイルと、ドキュメントの処理と理解を行う ML モデルの間にあります。これらは、ドキュメントの分類、分割、解析、分析に使用できます。
各 Google Cloud プロジェクトで、独自のプロセッサ インスタンスを作成する必要があります。
プロセッサは次のいずれかのカテゴリに分類されます。
- Digitize: OCR。
- 抽出: カスタム エクストラクタ、Form パーサー、レイアウト パーサー、事前トレーニング済みパーサー。
- 分類: カスタム分類器とカスタム スプリッター。
Document AI で利用できる全プロセッサ タイプについては、すべてのプロセッサと詳細の一覧をご覧ください。
どのプロセッサを使用するべきか?
特定のアプリケーションで使用するプロセッサの種類を決定するための一般的なガイドラインは次のとおりです。
カテゴリ | ユースケース | プロセッサのタイプ |
---|---|---|
デジタル化 | ドキュメントからテキストとレイアウト情報を抽出します。 | Enterprise Document OCR |
ドキュメントのスキャンされた画像の品質(読みやすさ)を分析します。 | 画像品質分析 が有効になっている Enterprise Document OCR | |
カスタム プロセッサの条件を満たしていないカスタム ドキュメントからエンティティを抽出します。 | ||
抽出 | ドキュメント内の構造化されたフォームからテーブルまたは kvp を抽出します。 | Form パーサー |
ドキュメント内のテキスト、表、リストなどの要素を抽出し、コンテキスト認識チャンクを返します。 | レイアウト パーサー | |
カスタム プロセッサの条件を満たすカスタム ドキュメントからエンティティを抽出します。 | カスタム エクストラクタを作成する | |
特殊なドキュメント タイプからエンティティを抽出します。 | 事前トレーニング済みプロセッサ(アップトレーニングして品質を向上させます)。 | |
分類 | ドキュメントを分類します。 | カスタム分類器を作成する |
ドキュメントを分割する。 | カスタム スプリッターを作成する |
この図は、各ユースケースに最適なプロセッサを判断するのに役立ちます。
Document AI プロセッサを使用する
Document AI を使用してドキュメントの処理を開始する主な手順は次のとおりです。
ユースケースに適したプロセッサを選択します。
- 各プロセッサの詳細については、プロセッサと詳細の完全なリストをご覧ください。
Google Cloud コンソールまたは Document AI API を使用してプロセッサを作成します。
Document AI は、ドキュメントを送信できる予測エンドポイントを作成します。
詳しい手順については、プロセッサの作成をご覧ください。
トレーニング データとテストデータを使用してプロセッサをトレーニングするか、既存のプロセッサの上に新しい(事前トレーニング済みの)プロセッサ バージョンをアップトレーニングします。
- 詳細な手順については、プロセッサをトレーニングするをご覧ください。
処理のために書類を送信します。
Document AI はドキュメントを処理し、抽出された構造化情報を含む 1 つ以上の
Document
オブジェクトを返します。詳細な手順については、処理リクエストを送信すると処理レスポンスを処理するをご覧ください。