バッチ推論向け Vertex AI Model Monitoring

このページでは、1 回限りの Model Monitoring 分析を含めるようにバッチ推論ジョブリクエストを構成する方法について説明します。バッチ予測の場合、Model Monitoring はカテゴリ入力特徴量や数値入力特徴量に対し、特徴量スキュー検出をサポートします。

Model Monitoring スキュー分析を使用してバッチ推論ジョブを作成するには、バッチ推論入力データとモデルの元のトレーニングデータの両方をリクエストに含める必要があります。Model Monitoring の分析を追加できるのは、新しいバッチ推論ジョブを作成する場合に限られます。

スキューの詳細については、Model Monitoring の概要をご覧ください。

オンライン（リアルタイム）推論用に Model Monitoring を設定する方法については、Model Monitoring の使用をご覧ください。

前提条件

バッチ推論で Model Monitoring を使用するには、次の手順に沿って操作します。

Vertex AI Model Registry に、表形式 AutoML または表形式のカスタムトレーニング形式のいずれかのモデルを用意します。
トレーニングデータを Cloud Storage または BigQuery にアップロードし、そのデータの URI リンクを取得します。
- AutoML でトレーニングされたモデルの場合は、代わりにトレーニングデータセットのデータセット ID を使用できます。

Model Monitoring は、トレーニングデータとバッチ推論の出力を比較します。トレーニングデータとバッチ推論の出力には、サポートされているファイル形式を使用してください。

モデルタイプ	トレーニングデータ	バッチ推論の出力
カスタムトレーニング	CSV、JSONL、BigQuery、TfRecord（tf.train.Example）	JSONL
AutoML 表形式	CSV、JSONL、BigQuery、TfRecord（tf.train.Example）	CSV、JSONL、BigQuery、TfRecord（Protobuf.Value）

省略可: カスタムトレーニングされたモデルの場合は、モデルのスキーマを Cloud Storage にアップロードします。Model Monitoring には、スキュー検出用のベースライン分布を計算するためのスキーマが必要です。

バッチ推論をリクエストする

次の方法で、Model Monitoring 構成をバッチ推論ジョブに追加できます。

コンソール

Model Monitoring を有効にしてバッチ推論リクエストを行う手順は次のとおりです。

REST API

REST API を使用してバッチ推論リクエストを行う手順は次のとおりです。

バッチ推論リクエストを作成するときは、次の Model Monitoring 構成をリクエスト JSON 本文に追加します。

"modelMonitoringConfig": {
 "alertConfig": {
   "emailAlertConfig": {
     "userEmails": "EMAIL_ADDRESS"
   },
  "notificationChannels": [NOTIFICATION_CHANNELS]
 },
 "objectiveConfigs": [
   {
     "trainingDataset": {
       "dataFormat": "csv",
       "gcsSource": {
         "uris": [
           "TRAINING_DATASET"
         ]
       }
     },
     "trainingPredictionSkewDetectionConfig": {
       "skewThresholds": {
         "FEATURE_1": {
           "value": VALUE_1
         },
         "FEATURE_2": {
           "value": VALUE_2
         }
       }
     }
   }
 ]
}

ここで

EMAIL_ADDRESS: Model Monitoring からアラートを受け取るメールアドレス。例: example@example.com。
NOTIFICATION_CHANNELS: Model Monitoring からアラートを受信する Cloud Monitoring 通知チャンネルのリスト。通知チャンネルのリソース名は、プロジェクトの通知チャネルを一覧表示して取得できます。例: "projects/my-project/notificationChannels/1355376463305411567", "projects/my-project/notificationChannels/1355376463305411568"。
TRAINING_DATASET は、Cloud Storage に保存されているトレーニングデータセットへのリンクです。
- BigQuery トレーニングデータセットへのリンクを使用するには、gcsSource フィールドを次のように置き換えます。
```
"bigquerySource": {
    {
      "inputUri": "TRAINING_DATASET"
    }
 }
```
- AutoML モデルへのリンクを使用するには、gcsSource フィールドを次のように置き換えます。
```
"dataset": "TRAINING_DATASET"
```
FEATURE_1:VALUE_1 と FEATURE_2:VALUE_2 は、モニタリングする各特徴のアラートしきい値ですたとえば、Age=0.4 を指定した場合、Age 特徴について入力分布とベースライン分布の間の統計的距離が 0.4 を超えると、Model Monitoring によってアラートがログに記録されます。デフォルトでは、すべてのカテゴリ特徴と数値特徴がモニタリングされ、しきい値は 0.3 です。

Model Monitoring の構成の詳細については、モニタリングジョブのリファレンスをご覧ください。

Python

Model Monitoring を使用してカスタム表形式のモデルのバッチ推論ジョブを実行するには、サンプルノートブックをご覧ください。

Model Monitoring は、ジョブの更新とアラートをメールで自動的に通知します。

アクセススキュー指標

バッチ推論ジョブのスキュー指標にアクセスするには、次の方法を使用します。

コンソール（ヒストグラム）

Google Cloud コンソールを使用して、モニタリング対象の各特徴量における特徴量分布のヒストグラムを表示し、どのスキューが時間の経過とともに偏っているのかを確認します。

[バッチ予測] ページに移動します。

[バッチ予測] に移動
[バッチ予測] ページで、分析するバッチ予測ジョブをクリックします。
[モデルモニタリングのアラート] タブをクリックすると、モデルの入力特徴量のリストと、各特徴量のアラートしきい値などの関連情報が表示されます。
特徴を分析するには、特徴の名前をクリックします。その特徴の特徴分布のヒストグラムがページに表示されます。

データ分布をヒストグラムとして可視化すると、データ内で発生した変更をすばやく確認できます。その後、特徴生成パイプラインの調整や、モデルの再トレーニングを決定できます。

コンソール（JSON ファイル）

Google Cloud コンソールを使用して JSON 形式の指標にアクセスします。

[バッチ予測] ページに移動します。

[バッチ予測] に移動
バッチ推論モニタリングジョブの名前をクリックします。
[モニタリングプロパティ] タブをクリックします。
[モニタリングの出力ディレクトリ] リンクをクリックして、Cloud Storage バケットに移動します。
metrics/ フォルダをクリックします。
skew/ フォルダをクリックします。
feature_skew.json ファイルをクリックして、[オブジェクトの詳細] ページに移動します。
次のいずれかの方法で JSON ファイルを開きます。

[ダウンロード] をクリックして、ローカルのテキストエディタでファイルを開きます。
gsutil URI のパスを使用して、Cloud Shell またはローカルターミナルで gcloud storage cat gsutil_URI を実行します。

feature_skew.json ファイルには、キーが特徴名で、値が特徴スキューである辞書が含まれています。例:

{
  "cnt_ad_reward": 0.670936,
  "cnt_challenge_a_friend": 0.737924,
  "cnt_completed_5_levels": 0.549467,
  "month": 0.293332,
  "operating_system": 0.05758,
  "user_pseudo_id": 0.1
}

Python

Model Monitoring でバッチ推論ジョブを実行した後に、カスタム表形式のモデルのスキュー指標にアクセスする方法については、サンプルノートブックをご覧ください。

バッチ推論のモニタリングエラーをデバッグする

バッチ推論のモニタリングジョブが失敗した場合は、 Google Cloud コンソールでデバッグログを確認できます。

[バッチ予測] ページに移動します。

[バッチ予測] に移動
失敗したバッチ推論モニタリングジョブの名前をクリックします。
[モニタリングプロパティ] タブをクリックします。
[モニタリングの出力ディレクトリ] リンクをクリックして、Cloud Storage バケットに移動します。
logs/ フォルダをクリックします。
いずれかの .INFO ファイルをクリックすると、[オブジェクトの詳細] ページに移動します。
次のいずれかの方法でログファイルを開きます。
- [ダウンロード] をクリックして、ローカルのテキストエディタでファイルを開きます。
- gsutil URI のパスを使用して、Cloud Shell またはローカルターミナルで gcloud storage cat gsutil_URI を実行します。

ノートブックチュートリアル

これらのエンドツーエンドのチュートリアルで、Vertex AI Model Monitoring を使用してモデルの可視化と統計情報を取得する方法の詳細を確認してください。

AutoML

カスタム

次のステップ

Model Monitoring の使用方法を学習する。
Model Monitoring がトレーニング / サービングスキューと推論ドリフトを計算する方法を学習する。

バッチ推論向け Vertex AI Model Monitoring

前提条件

バッチ推論をリクエストする

コンソール

REST API

Python

アクセス スキュー指標

コンソール（ヒストグラム）

コンソール（JSON ファイル）

Python

バッチ推論のモニタリング エラーをデバッグする

ノートブック チュートリアル

AutoML

カスタム

XGBoost モデル

Vertex Explainable AI の特徴アトリビューション