このページは Cloud Translation API によって翻訳されました。

モデルモニタリングの概要

このドキュメントでは、BigQuery ML がモデルで使用するデータの評価と比較を通じて、ML モデルのモニタリングをサポートする方法について説明します。ここでは、モデルのサービングデータとトレーニングデータの比較、新しいサービングデータと以前に使用したサービングデータの比較などを行います。

モデルで使用されるデータはモデルのパフォーマンスに影響するため、このデータを理解することは ML の重要な作業となります。モデルの正確性を常に維持するには、トレーニングデータとサービングデータの差異を把握することが特に重要となります。モデルは、トレーニングデータと類似したデータで最高のパフォーマンスを発揮します。サービングデータがモデルのトレーニングに使用したデータから逸脱すると、モデル自体に変化がなくても、モデルのパフォーマンスが低下する可能性があります。

BigQuery ML には、トレーニングデータとサービングデータのデータスキューやデータドリフトの分析に役立つ関数があります。

データスキューは、トレーニングデータの特徴値の分布が、本番環境のサービングデータと大きく異なる場合に発生します。モデルのトレーニング中にモデルのトレーニング統計情報が保存されるため、スキューの検出に元のトレーニングデータは必要ありません。
データドリフトは、本番環境での特徴データの分布が時間の経過とともに大きく変化した場合に発生します。ドリフトの検出は、連続したデータスパンでサポートされます（たとえば、サービングデータの異なる期間）。これにより、データセットが大きく変化してモデルの再トレーニングができなくなる前に、サービングデータの変化に関する通知を受け取ることができます。

BigQuery ML でモデルをモニタリングするには、次の関数を使用します。

ML.DESCRIBE_DATA: 一連のトレーニングデータまたはサービングデータの記述統計を計算します。
ML.VALIDATE_DATA_SKEW: 一連のサービングデータの統計情報を計算し、BigQuery ML モデルのトレーニング時に計算されたトレーニングデータの統計情報と比較して、2 つのデータセット間の異常な差異を特定します。パフォーマンスの向上とコスト削減のため、トレーニングデータの特徴列と一致するサービングデータの特徴列に対してのみ統計情報が計算されます。
ML.VALIDATE_DATA_DRIFT: 2 つのデータセットのサービングデータの統計を計算して比較し、2 つのデータセット間の異常な差異を特定します。
ML.TFDV_DESCRIBE: 一連のトレーニングデータまたはサービングデータの詳細な記述統計を計算します。この関数は、TensorFlow tfdv.generate_statistics_from_csv API と同じ動作をします。
ML.TFDV_VALIDATE: トレーニングデータとサービングデータの統計情報、または 2 つのサービングデータの統計情報を比較し、2 つのデータセット間の異常な差異を特定します。この関数は、TensorFlow validate_statistics API と同じ動作をします。

モニタリングユースケース

このセクションでは、一般的なモニタリングユースケースで BigQuery ML モデルモニタリング関数を使用する方法について説明します。

データスキューの基本的なモニタリング

このユースケースは、データスキュー検出用のモデルを迅速に開発してモニタリングし、既存のモニタリングソリューションと統合するためのきめ細かいスキュー統計情報を必要としない場合に適しています。

このユースケースの一般的な手順は次のとおりです。

トレーニングデータとサービスデータに対して ML.DESCRIBE_DATA 関数を実行し、両方のデータセットが適切に比較され、想定されたパラメータ内に収まるようにします。
BigQuery ML モデルを作成し、トレーニングデータでトレーニングします。
ML.VALIDATE_DATA_SKEW 関数を実行して、サービングデータの統計情報と、モデル作成中に計算されたトレーニングデータの統計情報を比較し、データスキューがあるかどうかを確認します。
データスキューがある場合は、根本原因を調査し、トレーニングデータを適切に調整してから、モデルを再トレーニングします。

データドリフトの基本的なモニタリング

このユースケースは、データドリフト検出用のモデルを迅速に開発してモニタリングし、既存のモニタリングソリューションと統合するためのきめ細かいドリフト統計情報を必要としない場合に適しています。

このユースケースの一般的な手順は次のとおりです。

トレーニングデータとサービスデータに対して ML.DESCRIBE_DATA 関数を実行し、両方のデータセットが適切に比較され、想定されたパラメータ内に収まるようにします。
BigQuery ML モデルを作成し、トレーニングデータでトレーニングします。
ML.VALIDATE_DATA_DRIFT 関数を実行して、2 つの異なるサービングデータセットの統計情報を比較し、データドリフトがあるかどうか確認します。たとえば、現在のサービングデータをテーブルスナップショットの過去のサービングデータと比較します。また、ML.FEATURES_AT_TIME 関数で取得した特定の時点の特徴と比較します。
データドリフトがある場合は、根本原因を調査し、トレーニングデータを適切に調整してから、モデルを再トレーニングします。

データスキューまたはドリフトの高度なモニタリング

このユースケースは、スキューやドリフトの詳細な統計情報を既存のモニタリングソリューションと統合する場合などに適しています。

このユースケースの一般的な手順は次のとおりです。

モニタリングソリューションに適した間隔で、トレーニングデータとサービングデータに ML.TFDV_DESCRIBE 関数を実行し、クエリ結果を保存します。このステップでは、将来のサービングデータを過去のトレーニングデータやサービスデータと比較します。
トレーニングデータとサービングデータの統計情報、または 2 つのサービングデータの統計情報に対して ML.TFDV_VALIDATE 関数を実行し、データスキューまたは特徴のドリフトを評価します。トレーニングデータとサービングデータは、JSON 形式の TensorFlow DatasetFeatureStatisticsList プロトコルバッファとして提供する必要があります。ML.TFDV_DESCRIBE 関数を実行すると、正しい形式のプロトコルバッファを生成できます。また、BigQuery の外部から読み込むこともできます。次の例は、特徴のスキューを評価する方法を示しています。
```
DECLARE stats1 JSON;
DECLARE stats2 JSON;

SET stats1 = (
  SELECT * FROM ML.TFDV_DESCRIBE(TABLE `myproject.mydataset.training`)
);
SET stats2 = (
  SELECT * FROM ML.TFDV_DESCRIBE(TABLE `myproject.mydataset.serving`)
);

SELECT ML.TFDV_VALIDATE(stats1, stats2, 'SKEW');

INSERT `myproject.mydataset.serve_stats`
  (t, dataset_feature_statistics_list)
SELECT CURRENT_TIMESTAMP() AS t, stats1;
```
データスキューまたはデータドリフトがある場合は、根本原因を調査し、トレーニングデータを適切に調整してから、モデルを再トレーニングします。

モニタリングの可視化

一部のモニタリング関数は Vertex AI Model Monitoring と統合できるため、チャートやグラフを使用して、モデルモニタリング関数の出力を分析できます。

Vertex AI の可視化を使用した場合、次のような利点があります。

インタラクティブな可視化: Vertex AI コンソールでチャートやグラフを使用して、データの分布、スキュー指標、ドリフト指標を調べられます。
履歴分析: Vertex AI の可視化を使用して、一定期間におけるモデルモニタリング結果を追跡できます。これにより、データの変化の傾向とパターンを特定して、モデルを能動的に更新し、維持できます。
一元管理: 統合された Vertex AI ダッシュボードで、すべての BigQuery ML モデルと Vertex AI モデルのモニタリングを管理します。

ML.VALIDATE_DATA_DRIFT 関数の出力の可視化を有効にするには、その関数の MODEL 引数を使用します。ML.VALIDATE_DATA_SKEW 関数の出力の可視化を有効にするには、その関数の enable_visualization_link 引数を使用します。

モニタリングの可視化は、Vertex AI に登録されているモデルでのみ使用できます。既存のモデルを登録するには、ALTER MODEL ステートメントを使用します。

モニタリングの自動化

スケジュールされたクエリでモニタリング関数を実行し、出力を評価して、異常が検出された場合にモデルを再トレーニングするようにモニタリングを自動化できます。スケジュールクエリの設定で、メール通知を有効にする必要があります。

ML.VALIDATE_DATA_SKEW 関数を自動化する方法の例については、スキュー検出を自動化するをご覧ください。

次のステップ

ML モデルでサポートされている SQL ステートメントと関数の詳細については、ML モデルのエンドツーエンドのユーザージャーニーをご覧ください。

モデル モニタリングの概要

モニタリング ユースケース

データスキューの基本的なモニタリング

データドリフトの基本的なモニタリング

データスキューまたはドリフトの高度なモニタリング

モニタリングの可視化

モニタリングの自動化

次のステップ

モデルモニタリングの概要

モニタリングユースケース