このページは Cloud Translation API によって翻訳されました。

Document AI の概要

このドキュメントでは、Document AI の使用に関する基本的なコンセプトについて説明します。他のドキュメントやクイックスタートに進む前に、このページをお読みください。

ドキュメント処理ワークフローを自動化する

世界中の企業は、情報を保存し伝達するためにドキュメントに大きく依存しています。この情報は、多くの場合、有用なものにするためにデジタル化する必要があります。ただし、通常、これは時間のかかる手動プロセスによって行われます。

次に例を示します。

電子書籍リーダー用の書籍をデジタル化します。
診療所での問診票の処理。
経費レポートの検証のために領収書と請求書を解析します。
ID カードに基づく身元確認。
ローンの承認のために税務申告書から収入情報を抽出する。
主要なビジネス契約条件の契約を理解する。

これらのワークフローでは、ドキュメントから未加工のテキストを取得し、必要なデータ（フィールドまたはエンティティ）に対応する特定のテキストを抽出します。ただし、ドキュメントタイプごとに構造とレイアウトが異なり、フィールドのパターンは特定のユースケースによって異なります。

Document AI コンポーネント

Document AI は、ドキュメントから非構造化データを取り出して構造化データ（データベースに適した特定のフィールド）に変換し、ドキュメントを簡単に理解、分析、利用できるようにする、ドキュメント処理と理解のためのプラットフォームです。

Document AI は、Vertex AI 内のプロダクトを基盤として、生成 AI を使用して構築されています。これにより、ML の専門知識がなくても、スケーラブルなエンドツーエンドのクラウドベースのドキュメント処理アプリケーションを作成できます。

Document AI を使用すると、次のことができます。

OCR を使用してドキュメントをデジタル化し、テキスト、レイアウト、さまざまなアドオン（画像品質の検出（読みやすさのため）、自動傾き補正など）を取得します。
ドキュメントファイルからテキストとレイアウト情報を抽出し、エンティティを正規化します。
構造化されたフォームと通常の表で Key-Value ペア（kvp）を識別します。たとえば、Name: Jill Smith は kvp です。
ドキュメントタイプを分類して、抽出や保存などのダウンストリームプロセスを推進します。
ドキュメントをタイプ別に分割して分類します。たとえば、複数の実際のドキュメントを含む PDF ファイルなどです。
自動ラベル付け、スキーマ管理、ドキュメントや予測のレビューなどのデータセット管理機能を使用して、ファインチューニングとモデル評価で使用するデータセットを準備します。
Cloud Storage、BigQuery、Vertex AI Search などのプロダクトと統合して、ドキュメントとメタデータの保存、検索、整理、管理、分析を行うことができます。

この図は、Document AI でサポートされている主要なドキュメント処理手順と、それらの手順がどのように連携するかを示しています。

docai-overview-1

プロセッサ

Document AI プロセッサは、ドキュメントファイルと、ドキュメントの処理と理解を行う ML モデルの間にあります。これらは、ドキュメントの分類、分割、解析、分析に使用できます。

各 Google Cloud プロジェクトで、独自のプロセッサインスタンスを作成する必要があります。

プロセッサは次のいずれかのカテゴリに分類されます。

Digitize: OCR。
抽出: カスタムエクストラクタ、Form パーサー、レイアウトパーサー、事前トレーニング済みパーサー。
分類: カスタム分類器とカスタムスプリッター。

Document AI で利用できる全プロセッサタイプについては、すべてのプロセッサと詳細の一覧をご覧ください。

どのプロセッサを使用するべきか？

特定のアプリケーションで使用するプロセッサの種類を決定するための一般的なガイドラインは次のとおりです。

カテゴリ	ユースケース	プロセッサのタイプ
デジタル化	ドキュメントからテキストとレイアウト情報を抽出します。	Enterprise Document OCR
	ドキュメントのスキャンされた画像の品質（読みやすさ）を分析します。	画像品質分析が有効になっている Enterprise Document OCR
	カスタムプロセッサの条件を満たしていないカスタムドキュメントからエンティティを抽出します。
抽出	ドキュメント内の構造化されたフォームからテーブルまたは kvp を抽出します。	Form パーサー
	ドキュメント内のテキスト、表、リストなどの要素を抽出し、コンテキスト認識チャンクを返します。	レイアウトパーサー
	カスタムプロセッサの条件を満たすカスタムドキュメントからエンティティを抽出します。	カスタムエクストラクタを作成する
	特殊なドキュメントタイプからエンティティを抽出します。	事前トレーニング済みプロセッサ（アップトレーニングして品質を向上させます）。
分類	ドキュメントを分類します。	カスタム分類器を作成する
分類	ドキュメントを分割する。	カスタムスプリッターを作成する

この図は、各ユースケースに最適なプロセッサを判断するのに役立ちます。

docai-overview-2

Document AI プロセッサを使用する

Document AI を使用してドキュメントの処理を開始する主な手順は次のとおりです。

ユースケースに適したプロセッサを選択します。
- 各プロセッサの詳細については、プロセッサと詳細の完全なリストをご覧ください。
Google Cloud コンソールまたは Document AI API を使用してプロセッサを作成します。
- Document AI は、ドキュメントを送信できる予測エンドポイントを作成します。
- 詳しい手順については、プロセッサの作成をご覧ください。
トレーニングデータとテストデータを使用してプロセッサをトレーニングするか、既存のプロセッサの上に新しい（事前トレーニング済みの）プロセッサバージョンをアップトレーニングします。
- 詳細な手順については、プロセッサをトレーニングするをご覧ください。
処理のために書類を送信します。
- Document AI はドキュメントを処理し、抽出された構造化情報を含む 1 つ以上の Document オブジェクトを返します。
- 詳細な手順については、処理リクエストを送信すると処理レスポンスを処理するをご覧ください。

Document AI を試す