抽出の概要

Document AI には、さまざまなユースケースに合わせてドキュメントから情報を抽出するための複数のプロダクトが用意されています。

  • Form パーサー
  • カスタム抽出ツール: 次の 3 種類のモデル化タイプが用意されています。

    • 基盤モデル
    • カスタムモデルベース
    • カスタム テンプレート ベース
  • レイアウト パーサー

Form パーサー

Form パーサーは、Key-Value ペア(KVP)、表、選択マーク(チェックボックス)、汎用フィールドを抽出して、抽出を拡張し自動化します。最大 11 個の汎用エンティティとチェックボックスを標準で抽出できます。Form パーサーで抽出するフィールド(スキーマ)は指定しません。このモデルは、ドキュメントの各ページから対象エンティティを検出して返します。

カスタム エクストラクタ

カスタム エクストラクタは、スキーマで定義したエンティティを抽出し、基盤モデル、カスタムモデルベース、カスタム テンプレートベースの 3 つのモデリング オプションを提供します。トレーニング データがほとんどない基盤モデルでも有望な結果が得られるため、最初に基盤モデルを試し、必要に応じて他のオプションを試すことをおすすめします。基盤モデルは、データセット内の最大 5 個のラベル付きドキュメントに基づいてゼロショットから少数ショットの予測を行い、データセット内の 10 個を超えるラベル付きドキュメントでファインチューニングされた予測を行います。

トレーニング方法 ドキュメントの例 ドキュメント レイアウトのバリエーション 自由形式のテキストまたは段落 本番環境向けの品質のトレーニング ドキュメントの数(変動に応じて)
ファインチューニングと基盤モデル(生成 AI)。 契約書、利用規約、請求書、銀行の明細書、船荷証券、給与明細書。 高から低(推奨)。 高レベル。 中程度: 0 ~ 50 件以上のドキュメント。
カスタムモデル。 モデル 年やベンダーによってレイアウトが異なる類似フォーム(W9 など)。 低~中程度。 低。 高: 10 ~ 100 件以上のドキュメント。
テンプレート。 固定レイアウトの税務フォーム(フォーム 941、709 など)。 なし 低。 低(3 件)。

通常、基盤モデルでは必要なトレーニング ドキュメントが少なくなるため、すべての変数レイアウトで最初のオプションとして使用することをおすすめします。

レイアウト パーサー

Layout Parser は、さまざまな形式のドキュメントを構造化表現に変換し、段落、表、リストなどのコンテンツや、見出し、ページヘッダー、フッターなどの構造要素にアクセスできるようにします。また、さまざまな生成 AI や検索アプリでの情報検索を容易にするコンテキスト アウェア チャンクを作成します。