カスタム エクストラクタの概要
カスタム エクストラクタは、特定のタイプのドキュメントからエンティティを抽出します。たとえば、メニューのアイテムや、履歴書の名前や連絡先情報を抽出できます。
概要
カスタム抽出ツールの目的は、事前トレーニング済みプロセッサを使用できない新しいドキュメント タイプに対して、Document AI ユーザーがカスタム エンティティ抽出ソリューションを構築できるようにすることです。カスタム エクストラクタには、レイアウト対応のディープラーニング モデル(生成 AI とカスタムモデル用)とテンプレートベースのモデルが組み込まれています。
どのトレーニング方法を使用すればよいですか?
カスタム抽出ツールは、3 つの異なるモードで幅広いユースケースをサポートします。
トレーニング方法 | ドキュメントの例 | ドキュメント レイアウトのバリエーション | 自由形式のテキストまたは段落 | 本番環境向けの品質のトレーニング ドキュメントの数(変動に応じて) | |
---|---|---|---|---|---|
ファインチューニングと基盤モデル(生成 AI)。 | 契約書、利用規約、請求書、銀行の明細書、船荷証券、給与明細書。 | 高から低(推奨)。 | 高レベル。 | 中程度: 0 ~ 50 件以上のドキュメント。 | |
カスタムモデル。 | モデル | 年やベンダーによってレイアウトが異なる類似フォーム(W9 など)。 | 低~中程度。 | 低。 | 高: 10 ~ 100 件以上のドキュメント。 |
テンプレート。 | 固定レイアウトの税務フォーム(フォーム 941、709 など)。 | なし | 低。 | 低(3 件)。 |
通常、基盤モデルでは必要なトレーニング ドキュメントが少なくなるため、すべての変数レイアウトで最初のオプションとして使用することをおすすめします。
信頼スコア
信頼スコアは、モデルによる各エンティティと予測値の関連性の強さを表します。値は 0 ~ 1 の範囲で、1 に近いほど、値がエンティティに対応しているというモデルの信頼度が高くなります。これにより、値が低い場合に個々のエンティティを手動で確認するためのトリガーを設定できます。たとえば、エンティティ内のテキストが「Hello, world!」と「HeIIo vvorld!」のどちらであるかを判断します。
このアプローチの利点は、信頼度の低い個々のエンティティの検出、予測に使用するしきい値の設定、最適な信頼度のしきい値の選択、精度と信頼スコアの高いモデルをトレーニングするための新しい戦略の開発ができることにあります。
評価のコンセプトと指標の詳細については、パフォーマンスを評価するをご覧ください。