抽出の概要

Document AI には、さまざまなユースケースでドキュメントから情報を抽出するための複数のプロダクトが用意されています。

Form パーサー

Form パーサーは、Key-Value ペア(KVP)、表、選択マーク(チェックボックス)、汎用フィールドを抽出して、抽出を拡張および自動化します。最大 11 個の汎用エンティティとチェックボックスをすぐに抽出できます。Form パーサーで抽出するフィールド(スキーマ)を指定しません。このモデルは、ドキュメントの各ページから対象のエンティティを検出して返します。

カスタム エクストラクタ

カスタム エクストラクタは、スキーマで定義したエンティティを抽出し、基盤モデル、カスタムモデル ベース、カスタム テンプレート ベースの 3 つのモデリング オプションを提供します。トレーニング データがほとんどない基盤モデルでも有望な結果が得られているため、最初のオプションとして基盤モデルから始め、必要に応じて他のオプションを試すことをおすすめします。基盤モデルは、データセット内の最大 5 つのラベル付きドキュメントに基づいてゼロショット予測または少数ショット予測を行い、データセット内の 10 個以上のラベル付きドキュメントを使用して予測をファインチューニングします。

トレーニング方法 ドキュメントの例 ドキュメント レイアウトのバリエーション 自由形式のテキストまたは段落 本番環境で使用できる品質のトレーニング ドキュメントの数(ばらつきによって異なる)
ファインチューニングと基盤モデル(生成 AI)。 契約書、利用規約、請求書、銀行取引明細書、船荷証券、給与明細。 高い順(推奨)。 高。 中: 0 ~ 50 個以上のドキュメント。
カスタムモデル。 モデル。 レイアウトが年やベンダーによって異なる類似のフォーム(W9 など)。 低~中。 低。 高: 10 ~ 100 件以上のドキュメント。
テンプレート。 レイアウトが固定されている税務書類(フォーム 941、709 など)。 なし 低。 低(3 個のドキュメント)。

基盤モデルは通常、トレーニング ドキュメントの数が少なくて済むため、すべての変数レイアウトの最初のオプションとして推奨されます。

レイアウト パーサー

レイアウト パーサーは、さまざまな形式のドキュメントを構造化された表現に変換し、段落、表、リストなどのコンテンツや、見出し、ページヘッダー、フッターなどの構造要素にアクセスできるようにします。また、さまざまな生成 AI アプリや検索アプリでの情報検索を容易にするコンテキスト アウェア チャンクを作成します。