カスタムベースの抽出

カスタムモデルのトレーニングと抽出を使用すると、生成 AI を使用せずに、ドキュメント専用に設計された独自のモデルを構築できます。生成 AI を使用せず、トレーニング済みモデルのすべての側面を制御したい場合に最適です。

データセットの構成

プロセッサ バージョンのトレーニング、アップトレーニング、評価を行うには、ドキュメント データセットが必要です。Document AI プロセッサは、人間と同じように例から学習します。データセットは、パフォーマンスの面でプロセッサの安定性を高めます。

トレーニング データセット

モデルとその精度を向上させるには、ドキュメントでデータセットをトレーニングします。モデルは、正解を含むドキュメントで構成されています。新しいモデルをトレーニングするには、少なくとも 3 つのドキュメントが必要です。

テスト データセット

テスト データセットは、モデルが F1 スコア(精度)を生成するために使用するものです。グラウンド トゥルースを含むドキュメントで構成されています。モデルの正答率を確認するには、グラウンド トゥルースを使用して、モデルの予測(モデルから抽出されたフィールド)と正解を比較します。テスト データセットには、少なくとも 3 つのドキュメントが必要です。

始める前に

まだ行っていない場合は、請求を有効にして Document AI API を有効にします。

カスタムモデルを構築して評価する

まず、カスタム プロセッサをビルドして評価します。

  1. プロセッサを作成し、抽出するフィールドを定義します。これは抽出の品質に影響するため重要です。

  2. データセットのロケーションを設定する: デフォルトのオプション フォルダ [Google-managed] を選択します。これは、プロセッサの作成直後に自動的に行われることがあります。

  3. [ビルド] タブに移動し、自動ラベル付けが有効になっている [ドキュメントのインポート] を選択します(基盤モデルによる自動ラベル付けをご覧ください)。カスタムモデルをトレーニングするには、トレーニング セットに少なくとも 10 個のドキュメント、テストセットに 10 個のドキュメントが必要です。

  4. モデルをトレーニングします。

    1. [新しいバージョンをトレーニング] を選択し、プロセッサ バージョンに名前を付けます。
    2. [詳細オプションを表示] に移動し、[モデルベース] オプションを選択します。

    custom-based-extraction-1

  5. 評価:

    • [評価とテスト] に移動し、トレーニングしたばかりのバージョンを選択して、[完全な評価を表示] を選択します。

    custom-based-extraction-2

    • ドキュメント全体と各フィールドの f1、適合率、再現率などの指標が表示されます。
    • パフォーマンスが本番環境の目標を満たしているかどうかを判断します。満たしていない場合は、トレーニング セットとテスト セットを再評価します。通常は、解析がうまくいかないドキュメントをトレーニング テスト セットに追加します。
  6. 新しいバージョンをデフォルトとして設定します。

    1. [版を管理] に移動します。
    2. メニューに移動して、[デフォルトに設定] を選択します。

    custom-based-extraction-3

モデルがデプロイされ、このプロセッサに送信されたドキュメントでカスタム バージョンが使用されるようになりました。モデルのパフォーマンスを評価して、追加のトレーニングが必要かどうかを確認します。

評価参照

評価エンジンは、完全一致とファジー マッチングの両方を行うことができます。完全一致の場合、抽出された値が正解ラベルと完全に一致している必要があります。一致していない場合は、不一致としてカウントされます。

大文字と小文字の違いなど、わずかな違いがあるファジー マッチング抽出は、一致としてカウントされます。この設定は [評価] 画面で変更できます。

custom-based-extraction-4

基盤モデルを使用した自動ラベル付け

基盤モデルは、さまざまなドキュメント タイプのフィールドを正確に抽出できますが、追加のトレーニング データを提供して、特定のドキュメント構造に対するモデルの精度を向上させることもできます。

Document AI は、定義したラベル名と以前のアノテーションを使用して、自動ラベル付けでドキュメントを大規模にラベル付けします。

  1. カスタム プロセッサを作成したら、[スタートガイド] タブに移動します。
  2. [新しいフィールドを作成] を選択します。
  3. わかりやすい名前を入力し、説明フィールドに入力します。プロパティの説明を使用すると、各エンティティに追加のコンテキスト、分析情報、事前知識を提供して、抽出の精度とパフォーマンスを向上させることが可能です。

custom-based-extraction-5

  1. [ビルド] タブに移動し、[ドキュメントのインポート] を選択します。

    custom-based-extraction-6

  2. ドキュメントのパスと、ドキュメントのインポート先のセットを選択します。自動ラベル付けのチェックボックスをオンにして、基盤モデルを選択します。

  3. [ビルド] タブで、[データセットを管理] を選択します。インポートしたドキュメントが表示されます。ドキュメントを 1 つ選択します。

    custom-based-extraction-7

モデルの予測が紫色でハイライト表示されます。

  1. モデルによって予測された各ラベルを確認し、正しいことを確認します。不足しているフィールドがある場合は、それらも追加します。

custom-based-extraction-8

  1. ドキュメントの審査が完了したら、[ラベル付きとしてマーク] を選択します。これで、ドキュメントをモデルで使用できるようになりました。ドキュメントがテスト セットまたはトレーニング セットのいずれかにあることを確認します。