Document AI の概要
このドキュメントは、Document AI の使用に関する基本的なコンセプトのガイドです。他のドキュメントやクイックスタートに進む前に、このページをお読みください。
ドキュメント処理ワークフローを自動化する
世界中の企業は、情報を保存して伝えるためにドキュメントに大きく依存しています。多くの場合、この情報を有用にするにはデジタル化する必要があります。ただし、通常は時間のかかる手動プロセスで行われるため、
次に例を示します。
- 電子書籍リーダー向けに書籍をデジタル化する。
- 医療機関で医療申込フォームを処理する。
- 領収書と請求書を解析して経費レポートを検証する。
- 身分証明書に基づく本人確認。
- ローンの承認のために税務フォームから収入情報を抽出する。
- ビジネス契約の主要な条項に関する契約を理解する。
これらのワークフローのそれぞれでは、ドキュメントから元のテキストを取得し、必要なデータ(フィールドまたはエンティティ)に対応するテキストから特定のテキストを抽出します。ただし、ドキュメント タイプごとに構造とレイアウトが異なり、フィールドのパターンは特定のユースケースによって異なります。
Document AI コンポーネント
Document AI はドキュメント処理と理解のプラットフォームであり、ドキュメントから非構造化データを取得して構造化データ(データベースに適した特定のフィールド)に変換し、理解、分析、利用を容易にします。
Document AI は、生成 AI を備えた Vertex AI 内の製品上に構築されており、専門的な ML の専門知識がなくても、スケーラブルでエンドツーエンドのクラウドベースのドキュメント処理アプリケーションを作成できます。
Document AI を使用すると、次のことができます。
- OCR を使用してドキュメントをデジタル化し、テキスト、レイアウト、さまざまなアドオン(画像品質の検出(読みやすさのため)、傾斜補正(完全自動)など)を取得します。
- ドキュメント ファイルからテキストとレイアウト情報を抽出し、エンティティを正規化します。
- 構造化フォームと通常の表でKey-Value ペア(kvp)を特定します。例:
Name: Jill Smith
は kvp です。 - ドキュメント タイプを分類して、抽出や保存などのダウンストリーム プロセスを促進します。
- ドキュメントをタイプ別に分割して分類します。たとえば、複数の実際のドキュメントを含む PDF ファイルなど)。
- 自動ラベル付け、スキーマ管理、ドキュメントや予測のレビューなどのデータセット管理機能を使用して、ファインチューニングとモデル評価に使用するデータセットを準備します。
- Cloud Storage、BigQuery、Vertex AI Search などのプロダクトと統合して、ドキュメントとメタデータの保存、検索、整理、管理、分析に役立てることができます。
この図は、Document AI でサポートされている主要なドキュメント処理ステップと、それらのステップがどのように相互接続されているかを示しています。
プロセッサ
Document AI プロセッサは、ドキュメント ファイルと、ドキュメント処理と理解アクションを実行する ML モデルの間にあります。ドキュメントの分類、分割、解析、分析に使用できます。
Google Cloud プロジェクトごとに、独自のプロセッサ インスタンスを作成する必要があります。
プロセッサは次のいずれかのカテゴリに分類されます。
- デジタル化: OCR。
- 抽出: カスタム エクストラクタ、Form パーサー、レイアウト パーサー、事前トレーニング済みパーサー。
- 分類: カスタム分類器とカスタム スプリッター。
Document AI で利用できる全プロセッサ タイプについては、すべてのプロセッサと詳細の一覧をご確認ください。
どのプロセッサを使用するべきか?
特定のアプリケーションに使用するプロセッサのタイプを決定するには、次の一般的なガイドラインを参考にしてください。
カテゴリ | ユースケース | プロセッサのタイプ |
---|---|---|
デジタル化 | ドキュメントからテキストとレイアウト情報を抽出します。 | Enterprise Document OCR |
ドキュメントのスキャン画像の品質(読みやすさ)を分析します。 | 画像品質分析 が有効な Enterprise Document OCR | |
カスタム プロセッサの条件を満たさないカスタム ドキュメントからエンティティを抽出します。 | ||
抽出 | ドキュメント内の構造化フォームからテーブルまたは kvp を抽出します。 | Form パーサー |
ドキュメント内のテキスト、表、リストなどの要素を抽出し、コンテキスト対応のチャンクを返します。 | レイアウト パーサー | |
カスタム プロセッサの条件を満たすカスタム ドキュメントからエンティティを抽出します。 | カスタム エクストラクタを作成する | |
特殊なドキュメント タイプからエンティティを抽出します。 | 事前トレーニング済みプロセッサ(品質を改善するためにアップトレーニングします)。 | |
分類 | ドキュメントを分類する。 | カスタム分類器を作成する |
ドキュメントを分割する。 | カスタム スプリッターを作成する |
この図は、各ユースケースに最適なプロセッサを判断するのに役立ちます。
Document AI プロセッサを使用する
Document AI を使用してドキュメントの処理を開始する主な手順は次のとおりです。
ユースケースに適したプロセッサを選択します。
- 各プロセッサの詳細については、プロセッサの詳細リストをご覧ください。
Google Cloud コンソールまたは Document AI API を使用してプロセッサを作成します。
Document AI は、ドキュメントを送信できる予測エンドポイントを作成します。
詳細な手順については、プロセッサを作成するをご覧ください。
トレーニング データとテストデータを使用してプロセッサをトレーニングするか、既存のプロセッサ バージョンに基づいて新しい(事前トレーニング済み)プロセッサ バージョンをアップトレーニングします。
- 詳細な手順については、プロセッサをトレーニングするをご覧ください。
書類を送信して処理を開始します。
Document AI はドキュメントを処理し、抽出された構造化情報が含まれる 1 つ以上の
Document
オブジェクトを返します。詳細な手順については、処理リクエストの送信と処理レスポンスの処理をご覧ください。