このページは Cloud Translation API によって翻訳されました。

テンプレートベースの抽出

固定レイアウトのユースケースでは、3 つのトレーニングドキュメントと 3 つのテストドキュメントだけで、パフォーマンスの高いモデルをトレーニングできます。W9、1040、ACORD、アンケート、質問票などのテンプレート化されたドキュメントタイプの開発を加速し、本番環境までの時間を短縮します。

データセットの構成

プロセッサバージョンのトレーニング、アップトレーニング、評価を行うには、ドキュメントデータセットが必要です。Document AI プロセッサは、人間と同じように例から学習します。データセットは、パフォーマンスの面でプロセッサの安定性を高めます。

トレーニングデータセット

モデルとその精度を向上させるには、ドキュメントでデータセットをトレーニングします。モデルは、正解を含むドキュメントで構成されています。新しいモデルをトレーニングするには、少なくとも 3 つのドキュメントが必要です。

テストデータセット

テストデータセットは、モデルが F1 スコア（精度）を生成するために使用するものです。グラウンドトゥルースを含むドキュメントで構成されています。モデルの正答率を確認するには、グラウンドトゥルースを使用して、モデルの予測（モデルから抽出されたフィールド）と正解を比較します。テストデータセットには、少なくとも 3 つのドキュメントが必要です。

始める前に

まだ有効になっていない場合は、次の設定を有効にします。

テンプレートモードのラベル付けのベストプラクティス

適切なラベル付けは、高い精度を実現するための最も重要なステップの一つです。テンプレートモードには、他のトレーニングモードとは異なる独自のラベリング方法があります。

ラベル付けするトレーニングドキュメントでラベルが空の場合でも、ドキュメント内のデータが存在すると予想される領域全体（ラベルごと）の周囲に境界ボックスを描画します。
テンプレートベースのトレーニングでは、空のフィールドにラベルを付けることができます。モデルベースのトレーニングでは、空のフィールドにラベルを付けないでください。

テンプレートモードでカスタムエクストラクタを構築して評価する

カスタムエクストラクタを作成します。プロセッサを作成し、ベストプラクティスに沿って抽出するフィールドを定義します。これは抽出の品質に影響するため、重要です。
データセットのロケーションを設定します。デフォルトのオプションフォルダ（Google 管理）を選択します。これは、プロセッサの作成直後に自動的に行われることがあります。
[ビルド] タブに移動し、自動ラベル付けが有効になっている [ドキュメントのインポート] を選択します。通常、テンプレートベースのトレーニングでは、必要な最小数の 3 つを超えるドキュメントを追加しても品質は向上しません。数を増やすのではなく、少数のセットに正確なラベルを付けることに注力します。

注: データセットにテンプレートのバリエーションが見られる場合は、トレーニングセットのサイズを増やしてテストできます。バリエーションごとに少なくとも 3 つのトレーニングドキュメントを含めるようにしてください。セットごとに、少なくとも 3 つのトレーニングドキュメント、3 つのテストドキュメント、3 つのスキーマラベルが必要です。
境界ボックスを拡張します。テンプレートモードのこれらのボックスは、上記の例のようになります。最適な結果を得るためのベストプラクティスに沿って、バウンディングボックスを拡張します。
モデルをトレーニングする。
1. [新しいバージョンをトレーニング] を選択します。
2. プロセッサバージョンに名前を付けます。
3. [詳細オプションを表示する] に移動し、テンプレートベースのモデルアプローチを選択します。
注: トレーニングが完了するまで少し時間がかかります。
評価。
1. [評価とテスト] に移動します。
2. トレーニングしたバージョンを選択し、[完全な評価を表示] を選択します。
ドキュメント全体と各フィールドの F1 スコア、適合率、再現率などの指標が表示されます。1. パフォーマンスが本番環境の目標を満たしているかどうかを判断します。満たしていない場合は、トレーニングセットとテストセットを再評価します。
新しいバージョンをデフォルトとして設定します。
1. [版を管理] に移動します。
2. 選択して設定メニューを表示し、[デフォルトに設定] をオンにします。
モデルがデプロイされ、このプロセッサに送信されたドキュメントはカスタムバージョンを使用します。モデルのパフォーマンスを評価し（評価方法の詳細）、追加のトレーニングが必要かどうかを確認する。

評価参照

評価エンジンは、完全一致とファジーマッチングの両方を行うことができます。完全一致の場合、抽出された値が正解ラベルと完全に一致している必要があります。一致していない場合は、不一致としてカウントされます。

大文字と小文字の違いなど、わずかな違いがあるファジーマッチング抽出は、一致としてカウントされます。この設定は [評価] 画面で変更できます。

template-based-extraction-6

基盤モデルを使用した自動ラベル付け

基盤モデルは、さまざまなドキュメントタイプのフィールドを正確に抽出できますが、追加のトレーニングデータを提供して、特定のドキュメント構造に対するモデルの精度を向上させることもできます。

Document AI は、定義したラベル名と以前のアノテーションを使用して、自動ラベル付けで素早く簡単にドキュメントを大規模にラベル付けすることができます。

カスタムプロセッサを作成したら、[スタートガイド] タブに移動します。
[新しいフィールドを作成] を選択します。

注: 基盤モデルのラベル名は、モデルの精度とパフォーマンスに大きな影響を与える可能性があります。わかりやすい名前を付けるようにしてください。
[ビルド] タブに移動し、[ドキュメントのインポート] を選択します。
ドキュメントのパスと、ドキュメントのインポート先のセットを選択します。自動ラベル付けのチェックボックスをオンにして、基盤モデルを選択します。
[ビルド] タブで、[データセットを管理] を選択します。インポートしたドキュメントが表示されます。ドキュメントを 1 つ選択します。
モデルの予測が紫でハイライト表示されます。モデルによって予測された各ラベルを確認し、正しいことを確認する必要があります。欠落しているフィールドがある場合は、それらも追加する必要があります。

注: すべてのフィールドをできるだけ正確に指定することが重要です。そうしないと、モデルのパフォーマンスに影響します。ラベル付けの詳細をご覧ください。
ドキュメントの審査が完了したら、[ラベル付きとしてマーク] を選択します。
これで、ドキュメントをモデルで使用できるようになりました。ドキュメントがテストセットまたはトレーニングセットのいずれかに含まれていることを確認します。