この古いバージョンの AI Platform Prediction は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。2025 年 1 月 31 日以降、すべてのモデル、関連するメタデータ、デプロイが削除されます。リソースを Vertex AI に移行することで、AI Platform にはない新しい機械学習機能を利用できます。

継続評価の概要

継続評価では、AI Platform Prediction にデプロイしたトレーニング済み機械学習モデルからの予測入力と出力を定期的にサンプリングします。そして、AI Platform Data Labeling Service が審査担当者を割り当て、その審査担当者が予測入力のグラウンドトゥルースラベルを作成します。あるいは、独自のグラウンドトゥルースラベルを作成することもできます。Data Labeling Service は、モデルの予測とグラウンドトゥルースラベルを比較して、モデルの成果を継続的にフィードバックします。

仕組み

継続評価を行うには、すでにトレーニング済みの機械学習モデルをモデルバージョンとして AI Platform Prediction にデプロイしておく必要があります。デプロイすると、そのモデルバージョンの評価ジョブを作成できるようになります。

モデルバージョンの評価ジョブを作成すると、次の 2 つの処理が行われます。

モデルバージョンがオンライン予測を提供すると、予測の一部の入出力が BigQuery テーブルに保存されます。このサンプリングは、モデルが予測を提供するたびに頻繁に行われます。サンプリングするデータの量はカスタマイズできます。
評価ジョブは断続的に実行され、評価指標が生成されます。

結果の評価指標は、Google Cloud コンソールで確認できます。

グラウンドトゥルース

グラウンドトゥルースラベルとは、機械学習タスクの正しいラベルであると人間によって判断されるものです。継続評価ではこれらを解答集として使用し、モデルバージョンの予測とグラウンドトゥルースラベルを比較して指標を算出します。評価ジョブの作成にあたっては、予測データのグラウンドトゥルースラベルの生成方法を決定する必要があります。次の 2 つのオプションから選択できます。

Data Labeling Service によって割り当てられた審査担当者が、予測データにグラウンドトゥルースラベルを提供する。
独自のグラウンドトゥルースラベルを作成する。

評価ジョブの実行

デフォルトでは、評価ジョブは午前 10 時 UTC に毎日実行されます。実行中の処理は、グラウンドトゥルースラベルの生成方法によって異なります。

Data Labeling Service がグラウンドトゥルースラベルを提供する場合

評価ジョブが実行されると、Data Labeling Service は前回の実行以降の BigQuery の新しい行すべてを含むデータセットを作成します。これには、モデルバージョンからサンプリングされた予測入力と出力が含まれます。

Data Labeling Service は、このデータセットに基づいてラベル付けリクエストを送信し、それを受領した審査担当者がグラウンドトゥルースラベルを作成します。

ラベル付けリクエストが完了すると、Data Labeling Service は新しいグラウンドトゥルースラベルとモデルバージョンの予測出力を使用して評価指標を算出します。

特に、BigQuery テーブルに多数の予測データをサンプリングする場合、ラベル付け担当者がリクエストを完了するまでに 1 日以上かかることが考えられます。この場合、評価ジョブは翌日にスケジュールに従って再実行されます。つまり、ジョブが並行して複数回実行されているということです。ジョブが実行されるたびに、予測データの別のサンプル（実行前日のモデルバージョンの予測）が適用されます。実行にかかる時間にかかわらず、特定の予測日の評価指標が生成されます。

独自のグラウンドトゥルースラベルを作成する場合

前のセクションの説明どおり、評価ジョブが実行されると Data Labeling Service によって前回の実行以降の BigQuery の新しい列すべてを含むデータセットが作成されます。しかし、ここでは、グラウンドトゥルースラベルを、実行前にテーブルの groundtruth 列に追加しておく必要があります。評価ジョブはグラウンドトゥルースラベルがないすべての行をスキップし、それらの行が今後の評価ジョブ実行に含まれることはありません。

データセットが作成されると、Data Labeling Service は評価指標をすぐに算出します。

この方法を使用する場合は、評価ジョブが実行される前に毎日新しい予測にグラウンドトゥルースラベルを追加する必要があります。

料金

Data Labeling Service が審査担当者を割り当て、審査担当者がグラウンドトゥルースラベルを作成する場合、Data Labeling Service の料金が適用されます。その他に、継続評価にかかる特別な費用はありません。

継続評価を使用するには、AI Platform Prediction、BigQuery、Cloud Storage も使用する必要があります。これらのサービスには料金が発生する場合があります。

次のステップ

評価ジョブを作成する前に行う必要があることを確認する。

継続評価を始める前に

継続評価の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

仕組み

グラウンド トゥルース