テンプレート ベースの抽出

固定レイアウトのユースケースでは、3 つのトレーニング ドキュメントと 3 つのテストドキュメントで高性能なモデルをトレーニングできます。W9、1040、ACORD、アンケート、質問フォームなどのテンプレート ドキュメント タイプを開発し、本番環境への移行時間を短縮します。

データセットの構成

プロセッサ バージョンのトレーニング、アップトレーニング、評価を行うには、ドキュメント データセットが必要です。Document AI プロセッサは、人間と同じように例から学習します。データセットは、パフォーマンスの観点からプロセッサの安定性を高めます。

トレーニング データセット

モデルとその精度を改善するには、ドキュメントでデータセットをトレーニングします。このモデルは、グラウンド トゥルースを含むドキュメントで構成されています。新しいモデルをトレーニングするには、少なくとも 3 つのドキュメントが必要です。

テスト データセット

テストデータセットは、モデルが F1 スコア(精度)の生成に使用するものです。グラウンド トゥルースを含むドキュメントで構成されます。モデルが正しい頻度を確認するには、グラウンド トゥルースを使用して、モデルの予測(モデルから抽出されたフィールド)と正解を比較します。テスト データセットには、少なくとも 3 つのドキュメントが必要です。

始める前に

まだ有効になっていない場合は、次の機能を有効にします。

テンプレート モードのラベル付けのベスト プラクティス

適切なラベル付けは、高い精度を達成するための最も重要なステップの一つです。テンプレート モードには、他のトレーニング モードとは異なる独自のラベル付け方法があります。

  • ラベル付けするトレーニング ドキュメントでラベルが空であっても、ドキュメント内のデータが存在すると想定される領域全体(ラベルごとに)に境界ボックスを描画します。
  • テンプレート ベースのトレーニングでは、空のフィールドにラベルを付けることができます。モデルベースのトレーニングでは、空のフィールドにラベルを付けないでください。

テンプレート モードでカスタム エクストラクタを構築して評価する

  1. カスタム エクストラクタを作成します。プロセッサを作成し、ベスト プラクティスに沿って抽出するフィールドを定義します。これは、抽出の品質に影響するため重要です。

  2. データセットのロケーションを設定します。デフォルトのオプション フォルダ(Google が管理)を選択します。これは、プロセッサの作成直後に自動的に行われる場合もあります。

  3. [Build] タブに移動し、自動ラベル付けを有効にして [Import documents] を選択します。通常、テンプレートベースのトレーニングの品質は、必要な最小数の 3 つを超えるドキュメントを追加しても向上しません。追加するのではなく、少数のセットを非常に正確にラベル付けすることに重点を置きます。

  4. 境界ボックスを拡張します。テンプレート モードのこれらのボックスは、上の例のようになります。最適な結果を得るために、ベスト プラクティスに沿って境界ボックスを拡張します。

  5. モデルをトレーニングする。

    1. [新しいバージョンをトレーニング] を選択します。
    2. プロセッサ バージョンに名前を付けます。
    3. [詳細オプションを表示] に移動し、テンプレートベースのモデル アプローチを選択します。

    template-based-extraction-3

  6. 評価。

    1. [評価とテスト] に移動します。
    2. トレーニングしたバージョンを選択し、[完全な評価を表示] を選択します。

    template-based-extraction-4

    ドキュメント全体と各フィールドの F1、精度、再現率などの指標が表示されます。1. パフォーマンスが本番環境の目標を満たしているかどうかを判断します。満たしていない場合は、トレーニング セットとテストセットを再評価します。

  7. 新しいバージョンをデフォルトとして設定します。

    1. [バージョンの管理] に移動します。
    2. 選択して設定メニューを表示し、[デフォルトとして設定] をオンにします。

    template-based-extraction-5

    モデルがデプロイされ、このプロセッサに送信されるドキュメントはカスタム バージョンを使用します。モデルのパフォーマンスを評価して(詳細)、さらにトレーニングが必要かどうかを確認する。

評価の参照

評価エンジンは、完全一致とファジー マッチの両方を行うことができます。完全一致の場合、抽出された値は正解ラベルと完全に一致している必要があります。一致しない場合、ミスとしてカウントされます。

大文字と小文字の違いなど、わずかな違いがあるファジー マッチ抽出結果も、一致としてカウントされます。この設定は [評価] 画面で変更できます。

template-based-extraction-6

基盤モデルを使用した自動ラベル付け

基盤モデルは、さまざまなドキュメント タイプに対してフィールドを正確に抽出できますが、追加のトレーニング データを提供して、特定のドキュメント構造に対するモデルの精度を高めることもできます。

Document AI は、定義したラベル名と以前のアノテーションを使用して、自動ラベル付けで素早く簡単にドキュメントを大規模にラベル付けすることができます。

  1. カスタム プロセッサを作成したら、[使ってみる] タブに移動します。
  2. [新しいフィールド] を選択します。

    template-based-extraction-7

  3. [ビルド] タブに移動し、[ドキュメントのインポート] を選択します。

    template-based-extraction-8

  4. ドキュメントのパスと、ドキュメントをインポートするセットを選択します。自動ラベル付けのチェックボックスをオンにして、基盤モデルを選択します。

  5. [ビルド] タブで、[データセットの管理] を選択します。インポートしたドキュメントが表示されます。書類を 1 つ選択します。

    template-based-extraction-9

  6. モデルの予測が紫色でハイライト表示されます。モデルによって予測された各ラベルを確認し、正しいことを確認する必要があります。フィールドが不足している場合は、それらも追加する必要があります。

    template-based-extraction-10

  7. ドキュメントの審査が完了したら、[ラベル付きとしてマーク] を選択します。

  8. これで、ドキュメントをモデルで使用できるようになりました。ドキュメントがテストセットまたはトレーニング セットに含まれていることを確認します。