Form パーサーは、Key-Value ペア(KVP)、表、選択マーク(チェックボックスなど)、汎用フィールド、テキストを抽出して、ドキュメント処理を拡張し、自動化します。
ユースケースに次のものが含まれる場合は、他のパーサーよりも Form Parser を検討できます。
- 構造化されたフォームの処理: name: __のように、ラベル付きの空白を埋める従来のフォームのような、明確に定義されたフォームから KVP を抽出するのに優れています。Form パーサーの事前トレーニング済みモデルは、名前、日付、住所などの一般的なフィールドで高い精度を実現します。
- 柔軟なテーブル抽出が必要: Form パーサーは、テーブルのような単純な(行や列にまたがるセルがない)テーブルから抽出します。トレーニングは不要です(また、トレーニングを行うこともできません)。トレーニング済みのテーブル抽出の場合、カスタム抽出ツールは、列(セル)の子フィールドを含む親フィールドで使用できます。
- 効率性が必要: 特に大量で多様な形式の抽出タスクの場合、抽出パーサーの構築とメンテナンスを回避します。
データ抽出機能
Form パーサーの機能は次のとおりです。
- KVP: ドキュメント内の 2 つのアイテム(ラベルまたはキーと、それに対応するデータ(値))のセットです。KVP を直接使用するか(キーが一貫している場合)、さまざまなキーを一貫した構造化情報に解決するカスタム ロジックを構築できます。 
- 汎用エンティティ: ドキュメントから 11 個の異なるフィールドをすぐに解析できます。これには次のものが含まれます。 - email
- phone
- url
- date_time
- address
- person
- organization
- quantity
- price
- id
- page_number
 
- テキストとレイアウト: 最新の OCR エンジンを使用して、テキストとレイアウト情報を抽出します。これには、デジタル PDF からの埋め込みテキスト(v2.1 のみ)や画像からのテキストが含まれます。 
- 表: 画像や PDF から表を検出して抽出します。 
- チェックボックス: 高品質の選択マーク検出器。チェックボックスに最も近いテキストを使用して、画像と PDF 出力からチェックボックスを KVP として抽出し、 - valueTypeでチェックボックスがオンかオフかを示します。
言語と地域
モデル バージョン
この機能に対応しているプロセッサのバージョンは次のとおりです。詳細については、プロセッサ バージョンの管理をご覧ください。
制限事項
- TIFF の以前の JPEG 圧縮はサポートされていません。TIFF バージョン 6.0 仕様で定義されている JPEG カプセル化のタイプ。 
- チェックボックス モデルはラジオボタンの解析をサポートしていません。検出されたチェックボックスの一部には、対応するキーがない場合があります。 
- モデルは、空白のフォームなど、値が入力されていない KVP を確実に解析しません。 
- 特定の言語のドキュメントの KVP 解析は、ラテン語系の言語よりも品質が低い場合があります。 
Form Parser でドキュメントを処理する
このクイックスタートでは、Document AI の Form Parser 機能について説明します。このクイックスタートでは、 Google Cloud コンソールを使用して Google Cloud プロジェクトと承認を設定し、Form Parser を作成して、Document AI に PDF フォームの処理をリクエストします。
学習内容:
- Google Cloud プロジェクトで Document AI を有効にします。 
- Form パーサー プロセッサを作成します。このプロセッサで、さまざまな種類のドキュメント内のテキスト、Key-Value ペア、テーブル、汎用エンティティを識別し、抽出することができます。 
- このプロセッサを使用して、サンプル ドキュメントにアノテーションを付けます。 
このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Document AI API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Document AI API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- Google Cloud コンソールのナビゲーション メニューで [Document AI] をクリックし、[プロセッサ ギャラリー] を選択します。 
- [プロセッサ ギャラリー] で、[Form パーサー] を - 検索 して [作成] を選択します。  
- サイド ウィンドウで、[プロセッサ名] に「 - quickstart-form-processor」などを入力します。
- 最も近いリージョンを選択します。 
- [作成] ボタンをクリックします。 
- 
手書きの医療用登録フォームのサンプルを含む PDF ファイルです。このドキュメントは、一般公開されている Cloud Storage バケットに保存されています。 
- [ - テスト ドキュメントをアップロード ] ボタンをクリックし、ダウンロードしたドキュメントを選択します。
- [Form パーサー分析] ページが表示されます。OCR で検出されたテキスト、Key-Value ペア、テーブル、ドキュメントから抽出された汎用エンティティが表示されます。     
- プロセッサ リストを確認します。
Form Parser プロセッサを作成する
Google Cloud コンソールを使用して、Form Parser プロセッサを作成します。詳細については、プロセッサの作成と管理をご覧ください。
新しいフォーム パーサー プロセッサの [プロセッサの詳細] ページが表示されます。
プロセッサをテストする
プロセッサを作成したら、作成したプロセッサに対してアノテーション リクエストを送信できます。
クリーンアップ
不要な Google Cloud 料金が発生しないようにするには、Google Cloud console を使用して、不要なプロセッサやプロジェクトを削除します。