カスタムベースの抽出

カスタムモデルのトレーニングと抽出を使用すると、生成 AI を使用せずに、ドキュメントに固有の独自のモデルを構築できます。生成 AI を使用しないで、トレーニング済みモデルのすべての側面を制御する場合に適しています。

データセットの構成

プロセッサ バージョンのトレーニング、アップトレーニング、評価を行うには、ドキュメント データセットが必要です。Document AI プロセッサは、人間と同じように例から学習します。データセットは、パフォーマンスの観点からプロセッサの安定性を高めます。

トレーニング データセット

モデルとその精度を改善するには、ドキュメントでデータセットをトレーニングします。このモデルは、グラウンド トゥルースを含むドキュメントで構成されています。新しいモデルをトレーニングするには、少なくとも 3 つのドキュメントが必要です。

テスト データセット

テストデータセットは、モデルが F1 スコア(精度)の生成に使用するものです。グラウンド トゥルースを含むドキュメントで構成されます。モデルが正しい頻度を確認するには、グラウンド トゥルースを使用して、モデルの予測(モデルから抽出されたフィールド)と正解を比較します。テスト データセットには、少なくとも 3 つのドキュメントが必要です。

開始する前に

まだ有効にしていない場合は、請求Document AI API を有効にします。

カスタムモデルを構築して評価する

まず、カスタム プロセッサを構築して評価します。

  1. プロセッサを作成し、抽出するフィールドを定義します。これは、抽出の品質に影響するため重要です。

  2. データセットのロケーションを設定する: デフォルトのオプション フォルダ [Google 管理] を選択します。これは、プロセッサの作成直後に自動的に行われる場合もあります。

  3. [ビルド] タブに移動し、自動ラベル付けを有効にして [ドキュメントをインポート] を選択します(基盤モデルを使用した自動ラベル付けをご覧ください)。カスタムモデルをトレーニングするには、トレーニング セットに少なくとも 10 個のドキュメント、テストセットに少なくとも 10 個のドキュメントが必要です。

  4. モデルをトレーニングします。

    1. [新しいバージョンをトレーニング] を選択し、プロセッサ バージョンに名前を付けます。
    2. [詳細オプションを表示] に移動し、[モデルベース] オプションを選択します。

    custom-based-extraction-1

  5. 評価:

    • [評価とテスト] に移動し、トレーニングしたバージョンを選択して、[完全な評価を表示] を選択します。

    custom-based-extraction-2

    • ドキュメント全体と各フィールドの f1、精度、再現率などの指標が表示されます。
    • パフォーマンスが本番環境の目標を満たしているかどうかを判断します。満たしていない場合は、トレーニング セットとテストセットを再評価します。通常は、適切に解析されないドキュメントをトレーニング テストセットに追加します。
  6. 新しいバージョンをデフォルトとして設定します。

    1. [バージョンの管理] に移動します。
    2. メニューに移動し、[デフォルトとして設定] を選択します。

    custom-based-extraction-3

モデルがデプロイされ、このプロセッサに送信されたドキュメントでカスタム バージョンが使用されるようになりました。モデルのパフォーマンスを評価して、さらにトレーニングが必要かどうかを確認する。

評価の参照

評価エンジンは、完全一致とファジー マッチの両方を行うことができます。完全一致の場合、抽出された値は正解ラベルと完全に一致している必要があります。一致しない場合、ミスとしてカウントされます。

大文字と小文字の違いなど、わずかな違いがあるファジー マッチ抽出結果も、一致としてカウントされます。この設定は [評価] 画面で変更できます。

custom-based-extraction-4

基盤モデルを使用した自動ラベル付け

基盤モデルは、さまざまなドキュメント タイプに対してフィールドを正確に抽出できますが、追加のトレーニング データを提供して、特定のドキュメント構造に対するモデルの精度を高めることもできます。

Document AI は、定義したラベル名と以前のアノテーションを使用して、自動ラベル付けでドキュメントに大規模にラベル付けします。

  1. カスタム プロセッサを作成したら、[使ってみる] タブに移動します。
  2. [新しいフィールド] を選択します。
  3. わかりやすい名前を指定し、説明フィールドに入力します。プロパティの説明を使用すると、各エンティティに追加のコンテキスト、分析情報、事前知識を提供して、抽出の精度とパフォーマンスを向上させることが可能です。

custom-based-extraction-5

  1. [Build] タブに移動し、[ドキュメントのインポート] を選択します。

    custom-based-extraction-6

  2. ドキュメントのパスと、ドキュメントをインポートするセットを選択します。自動ラベル付けのチェックボックスをオンにして、基盤モデルを選択します。

  3. [ビルド] タブで、[データセットの管理] を選択します。インポートしたドキュメントが表示されます。書類を 1 つ選択します。

    custom-based-extraction-7

モデルの予測が紫色でハイライト表示されます。

  1. モデルによって予測された各ラベルを確認し、正しいことを確認します。フィールドが不足している場合は、それらも追加します。

custom-based-extraction-8

  1. ドキュメントを確認したら、[ラベル付きとしてマーク] を選択します。これで、ドキュメントをモデルで使用できるようになりました。ドキュメントが [テスト] セットまたは [トレーニング] セットに含まれていることを確認します。