パフォーマンスを評価する
Document AI が生成する適合率や再現率などの評価指標を使用して、プロセッサの予測パフォーマンスを判断します。
これらの評価指標は、プロセッサから返されたエンティティ(予測)をテストドキュメントのアノテーションと比較することで生成されます。プロセッサにテストセットがない場合は、まずデータセットを作成してテストドキュメントにラベルを付ける必要があります。
評価を実行する
プロセッサ バージョンをトレーニングまたはアップトレーニングするたびに、評価が自動的に実行されます。
評価を手動で実行することもできます。これは、テストセットを変更した後、または事前トレーニング済みプロセッサ バージョンを評価する場合に、更新された指標を生成するために必要です。
ウェブ UI
Google Cloud コンソールで [プロセッサ] ページに移動し、プロセッサを選択します。
[評価とテスト] タブで、評価するプロセッサのバージョンを選択し、[新しい評価を実行] をクリックします。
完了すると、ページにすべてのラベルと個々のラベルの評価指標が表示されます。
Python
詳細については、Document AI Python API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
評価の結果を取得する
ウェブ UI
Google Cloud コンソールで [プロセッサ] ページに移動し、プロセッサを選択します。
[評価とテスト] タブで、評価を表示するプロセッサのバージョンを選択します。
完了すると、ページにすべてのラベルと個々のラベルの評価指標が表示されます。
Python
詳細については、Document AI Python API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
プロセッサ バージョンのすべての評価を一覧表示する
Python
詳細については、Document AI Python API のリファレンス ドキュメントをご覧ください。
Document AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
すべてのラベルの評価指標
[すべてのラベル] の指標は、すべてのラベルにわたるデータセット内の真陽性、偽陽性、偽陰性の数に基づいて計算されます。したがって、各ラベルがデータセットに出現する回数によって重み付けされます。これらの用語の定義については、個々のラベルの評価指標をご覧ください。
精度: テストセットのアノテーションと一致する予測の割合。
True Positives / (True Positives + False Positives)
として定義再現率: テストセット内の正しく予測されたアノテーションの割合。
True Positives / (True Positives + False Negatives)
として定義F1 スコア: 適合率と再現率の調和平均。適合率と再現率を 1 つの指標に統合し、両方に同じ重み付けを適用します。
2 * (Precision * Recall) / (Precision + Recall)
として定義
個々のラベルの評価指標
真陽性: テストドキュメントのアノテーションと一致する予測エンティティ。詳細については、一致の動作をご覧ください。
偽陽性: テストドキュメントのアノテーションと一致しない予測エンティティ。
偽陰性: テストドキュメント内のアノテーションが、予測されたエンティティのいずれとも一致しない。
- 偽陰性(しきい値未満): 予測されたエンティティと一致するはずのテストドキュメント内のアノテーションですが、予測されたエンティティの信頼値が指定された信頼度しきい値を下回っています。
信頼度のしきい値
評価ロジックでは、指定された信頼度のしきい値を下回る信頼度の予測は、予測が正しい場合でも無視されます。Document AI には、偽陰性(しきい値未満)のリストが表示されます。これは、信頼度のしきい値が低く設定されている場合に一致するアノテーションです。
Document AI は、F1 スコアを最大化する最適なしきい値を自動的に計算し、デフォルトで信頼度のしきい値をこの最適な値に設定します。
スライダー バーを動かして、信頼度のしきい値を自由に選択できます。一般的に、信頼度のしきい値が高いほど、次のような結果になります。
- 予測が正しい可能性が高いため、精度が高くなります。
- 予測が少ないため、再現率が低くなります。
表形式のエンティティ
親ラベルの指標は、子ラベルの指標を直接平均するのではなく、親のラベルの信頼度しきい値をすべての子ラベルに適用して結果を集計することで計算されます。
親の最適なしきい値は、すべての子に適用したときに親の F1 スコアが最大になる信頼度のしきい値の値です。
一致の動作
予測されたエンティティがアノテーションと一致する場合:
- 予測されたエンティティのタイプ(
entity.type
)がアノテーションのラベル名と一致している - 予測されたエンティティの値(
entity.mention_text
またはentity.normalized_value.text
)がアノテーションのテキスト値と一致し、ファジー マッチングが有効になっている場合はその制約を受けます。
照合に使用されるのは、タイプとテキスト値のみです。テキスト アンカーやバウンディング ボックスなどのその他の情報(後述の表形式エンティティを除く)は使用されません。
単一の発生ラベルと複数の発生ラベル
単一の出現ラベルには、同じドキュメント内でその値が複数回アノテーションされている場合でも、ドキュメントごとに 1 つの値(請求書 ID など)があります(同じドキュメントのすべてのページに請求書 ID が記載されている場合など)。複数のアノテーションのテキストが異なっていても、同じとみなされます。つまり、予測されたエンティティがいずれかのアノテーションと一致する場合、そのエンティティは一致と見なされます。余分なアノテーションは重複する言及と見なされ、真陽性、偽陽性、偽陰性のいずれのカウントにもカウントされません。
複数の出現ラベルには、複数の異なる値を設定できます。したがって、各予測エンティティとアノテーションは個別に考慮され、照合されます。ドキュメントに複数の出現ラベルのアノテーションが N 個含まれている場合、予測されたエンティティと N 個の一致が存在する可能性があります。予測された各エンティティとアノテーションは、真陽性、偽陽性、偽陰性として個別にカウントされます。
ファジー一致
[ファジー マッチング] 切り替えボタンを使用すると、一部の一致ルールを厳しくしたり緩和したりして、一致数を減らしたり増やしたりできます。
たとえば、ファジー マッチングを使用しない場合、文字列 ABC
は大文字と小文字が異なるため、abc
と一致しません。ただし、ファジー一致では一致します。
ファジー一致が有効になっている場合、ルールは次のように変更されます。
空白文字の正規化: 先頭と末尾の空白文字を削除し、連続した中間の空白文字(改行を含む)を 1 つのスペースに圧縮します。
先頭と末尾の句読点の削除: 先頭と末尾の句読点文字
!,.:;-"?|
を削除します。大文字と小文字を区別しない照合: すべての文字を小文字に変換します。
通貨の正規化: データ型が
money
のラベルの場合は、先頭と末尾の通貨記号を削除します。
表形式のエンティティ
親エンティティとアノテーションにはテキスト値がなく、子の結合された境界ボックスに基づいて照合されます。予測された親とアノテーションされた親が 1 つずつしかない場合、境界ボックスに関係なく自動的に一致します。
親がマッチングされると、その子孫は表形式以外のエンティティであるかのようにマッチングされます。親が一致しない場合、Document AI は子の照合を試みません。つまり、親エンティティが一致していない場合、子エンティティは、テキスト コンテンツが同じであっても、不正確と見なされる可能性があります。
親 / 子エンティティはプレビュー機能であり、ネストされたレイヤが 1 つのテーブルでのみサポートされます。
評価指標をエクスポートする
Google Cloud コンソールで [プロセッサ] ページに移動し、プロセッサを選択します。
[評価とテスト] タブで [指標をダウンロード] をクリックして、評価指標を JSON ファイルとしてダウンロードします。