継続評価では、AI Platform Prediction にデプロイしたトレーニング済み機械学習モデルからの予測入力と出力を定期的にサンプリングします。そして、AI Platform Data Labeling Service が審査担当者を割り当て、その審査担当者が予測入力のグラウンド トゥルース ラベルを作成します。あるいは、独自のグラウンド トゥルース ラベルを作成することもできます。Data Labeling Service は、モデルの予測とグラウンド トゥルース ラベルを比較して、モデルの成果を継続的にフィードバックします。
仕組み
継続評価を行うには、すでにトレーニング済みの機械学習モデルをモデル バージョンとして AI Platform Prediction にデプロイしておく必要があります。デプロイすると、そのモデル バージョンの評価ジョブを作成できるようになります。
モデル バージョンの評価ジョブを作成すると、次の 2 つの処理が行われます。
- モデル バージョンがオンライン予測を提供すると、予測の一部の入出力が BigQuery テーブルに保存されます。このサンプリングは、モデルが予測を提供するたびに頻繁に行われます。サンプリングするデータの量はカスタマイズできます。
- 評価ジョブは断続的に実行され、評価指標が生成されます。
結果の評価指標は、Google Cloud コンソールで確認できます。
グラウンド トゥルース
グラウンド トゥルース ラベルとは、機械学習タスクの正しいラベルであると人間によって判断されるものです。継続評価ではこれらを解答集として使用し、モデル バージョンの予測とグラウンド トゥルース ラベルを比較して指標を算出します。評価ジョブの作成にあたっては、予測データのグラウンド トゥルース ラベルの生成方法を決定する必要があります。次の 2 つのオプションから選択できます。
- Data Labeling Service によって割り当てられた審査担当者が、予測データにグラウンド トゥルース ラベルを提供する。
- 独自のグラウンド トゥルース ラベルを作成する。
評価ジョブの実行
デフォルトでは、評価ジョブは午前 10 時 UTC に毎日実行されます。実行中の処理は、グラウンド トゥルース ラベルの生成方法によって異なります。
Data Labeling Service がグラウンド トゥルース ラベルを提供する場合
評価ジョブが実行されると、Data Labeling Service は前回の実行以降の BigQuery の新しい行すべてを含むデータセットを作成します。これには、モデル バージョンからサンプリングされた予測入力と出力が含まれます。
Data Labeling Service は、このデータセットに基づいてラベル付けリクエストを送信し、それを受領した審査担当者がグラウンド トゥルース ラベルを作成します。
ラベル付けリクエストが完了すると、Data Labeling Service は新しいグラウンド トゥルース ラベルとモデル バージョンの予測出力を使用して評価指標を算出します。
特に、BigQuery テーブルに多数の予測データをサンプリングする場合、ラベル付け担当者がリクエストを完了するまでに 1 日以上かかることが考えられます。この場合、評価ジョブは翌日にスケジュールに従って再実行されます。つまり、ジョブが並行して複数回実行されているということです。ジョブが実行されるたびに、予測データの別のサンプル(実行前日のモデル バージョンの予測)が適用されます。実行にかかる時間にかかわらず、特定の予測日の評価指標が生成されます。
独自のグラウンド トゥルース ラベルを作成する場合
前のセクションの説明どおり、評価ジョブが実行されると Data Labeling Service によって前回の実行以降の BigQuery の新しい列すべてを含むデータセットが作成されます。しかし、ここでは、グラウンド トゥルース ラベルを、実行前にテーブルの groundtruth
列に追加しておく必要があります。評価ジョブはグラウンド トゥルース ラベルがないすべての行をスキップし、それらの行が今後の評価ジョブ実行に含まれることはありません。
データセットが作成されると、Data Labeling Service は評価指標をすぐに算出します。
この方法を使用する場合は、評価ジョブが実行される前に毎日新しい予測にグラウンド トゥルース ラベルを追加する必要があります。
料金
Data Labeling Service が審査担当者を割り当て、審査担当者がグラウンド トゥルース ラベルを作成する場合、Data Labeling Service の料金が適用されます。その他に、継続評価にかかる特別な費用はありません。
継続評価を使用するには、AI Platform Prediction、BigQuery、Cloud Storage も使用する必要があります。これらのサービスには料金が発生する場合があります。
次のステップ
評価ジョブを作成する前に行う必要があることを確認する。