Vertex AI でのモデル評価

予測 AI 評価サービスを使用すると、特定のユースケースでモデルのパフォーマンスを評価できます。評価は、モデルのパフォーマンスのオブザーバビリティとも呼ばれます。Vertex AI が提供するモデル評価は、いくつかの点で一般的な ML ワークフローに適合しています。

モデルをトレーニングした後、モデルをデプロイする前にモデル評価指標を確認します。複数のモデルの評価指標を比較して、デプロイするモデルを決定できます。
モデルが本番環境にデプロイされたら、新しい受信データを使用してモデルを定期的に評価します。評価指標でモデルのパフォーマンスが低下している場合は、モデルの再トレーニングを検討してください。このプロセスは継続評価と呼ばれます。

これらの評価指標をどのように解釈し、使用するかは、ビジネスニーズや、どのような問題をモデルのトレーニングで解決するかによって異なります。たとえば、偽陽性の許容範囲が偽陰性の許容範囲よりも低い場合もあれば、その逆の場合もあります。このような質問に対する答えは、モデルに対して反復処理を行うときに重視する指標に影響します。

予測 AI モデル評価サービスが提供する主な指標には、次のようなものがあります。

機能

Vertex AI でモデルを評価するには、トレーニング済みモデル、バッチ予測出力、正解データセットが必要です。Vertex AI を使用した一般的なモデル評価ワークフローを次に示します。

モデルをトレーニングします。この操作は、AutoML またはカスタムトレーニングを使用して Vertex AI で行うことができます。
モデルに対してバッチ予測ジョブを実行し、予測結果を生成します。
正解データ（人間が判断した「正しくラベル付けされた」データ）を準備します。正解は通常、モデルのトレーニングプロセスで使用したテストデータセットの形式になります。
モデルに対して評価ジョブを実行します。これにより、正解データに対するバッチ予測結果の精度が評価されます。
評価ジョブから得られた指標を分析します。
モデルを繰り返し実行して、モデルの精度を改善できるか確認します。複数の評価ジョブを実行し、モデルまたはモデルバージョン間で複数のジョブの結果を比較できます。

Vertex AI では、いくつかの方法でモデル評価を実行できます。

Google Cloud コンソールの Vertex AI Model Registry で評価を作成します。
Vertex AI Pipelines では、パイプラインコンポーネントとして Vertex AI のモデル評価を使用します。自動化された MLOps ワークフローの一部として、モデル評価を含むパイプライン実行とテンプレートを作成できます。

モデル評価コンポーネントは単独で、またはバッチ予測コンポーネントなどの他のパイプラインコンポーネントと一緒に使用して実行できます。

Vertex AI では、次のモデルタイプの評価がサポートされています。

画像

表形式

回帰

スキーマファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

MAE: 平均絶対誤差（MAE）とは、ターゲット値と予測値との間の平均絶対差のことです。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
RMSE: 二乗平均平方根誤差（RMSE）とは、ターゲット値と予測値の平均二乗誤差の平方根です。RMSE は MAE よりも外れ値の影響を受けやすいため、大きな誤差が心配な場合は RMSE のほうがより便利な評価指標といえます。MAE と同様に、値が小さいほど高品質のモデルであることを示します（0 は完全な予測因子を表します）。
RMSLE: 二乗平均対数平方誤差の指標は、RMSE と似ていますが、予測値と実測値に 1 を加えた自然対数を使用する点が異なります。RMSLE は、過剰予測よりも過小予測に重いペナルティを与えます。小さい予測値の差よりも大きい予測値の差のペナルティが重くならないようにする場合にも、この指標を使用することをおすすめします。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。RMSLE 評価指標は、すべてのラベルと予測値が負でない場合にのみ返されます。
r^2: r 2 乗（r^2）は、ラベルと予測値間のピアソン相関係数の 2 乗です。この指標の範囲は 0～1 です。値が大きいほど、回帰直線に近いことを示します。
MAPE: 平均絶対誤差率（MAPE）は、ラベルと予測値の間の平均絶対パーセント誤差です。この指標の範囲はゼロから無限大までで、値が低いほど高品質のモデルであることを示します。
ターゲット列に 0 の値が含まれている場合、MAPE は表示されません。この場合、MAPE は未定義です。
モデル特徴アトリビューション: Vertex AI によって、各特徴量がモデルに及ぼす影響が示されます。値は、各特徴量の割合で表します。割合が高いほど、その特徴量はモデルのトレーニングに大きく影響します。この情報を確認して、特に重要なすべての特徴量がデータとビジネスの問題に対して適切であることを確認してください。

予測

スキーマファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

MAE: 平均絶対誤差（MAE）とは、ターゲット値と予測値との間の平均絶対差のことです。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
RMSE: 二乗平均平方根誤差（RMSE）とは、ターゲット値と予測値の平均二乗誤差の平方根です。RMSE は MAE よりも外れ値の影響を受けやすいため、大きな誤差が心配な場合は RMSE のほうがより便利な評価指標といえます。MAE と同様に、値が小さいほど高品質のモデルであることを示します（0 は完全な予測因子を表します）。
RMSLE: 二乗平均対数平方誤差の指標は、RMSE と似ていますが、予測値と実測値に 1 を加えた自然対数を使用する点が異なります。RMSLE は、過剰予測よりも過小予測に重いペナルティを与えます。小さい予測値の差よりも大きい予測値の差のペナルティが重くならないようにする場合にも、この指標を使用することをおすすめします。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。RMSLE 評価指標は、すべてのラベルと予測値が負でない場合にのみ返されます。
r^2: r 2 乗（r^2）は、ラベルと予測値間のピアソン相関係数の 2 乗です。この指標の範囲は 0～1 です。値が大きいほど、回帰直線に近いことを示します。
MAPE: 平均絶対誤差率（MAPE）は、ラベルと予測値の間の平均絶対パーセント誤差です。この指標の範囲はゼロから無限大までで、値が低いほど高品質のモデルであることを示します。
ターゲット列に 0 の値が含まれている場合、MAPE は表示されません。この場合、MAPE は未定義です。
WAPE: 加重絶対パーセント誤差（WAPE）とは、観測された値全体を通じた、モデルによって予測された値と観測された値との全体的な差です。RMSE と比較すると、WAPE では個々の差ではなく全体的な差に重点が置かれます。個々の差に重点を置くと、小さい値や断続的な値に大きな影響を受けることがあります。値が小さいほど、高品質のモデルであることを示します。
RMSPE: 平均二乗パーセント誤差の平方根（RMPSE）は、RMSE を、絶対数に対する割合ではなく、実際の値に対する割合として示したものです。値が小さいほど、高品質のモデルであることを示します。
分位数: 観測値が予測値を下回る可能性を表すパーセント分位数です。たとえば、0.5 分位数は、観測値が予測値よりも低くなる可能性が 50% であることを示します。
観測された分位数: 特定の分位数について、実際の値が予測値を下回った割合を示します。
スケールドピンボールロス: 特定の分位数における、スケーリングされたピンボールロス。値が小さいほど、該当の分位数において高品質のモデルであることを示します。

テキスト

2024 年 9 月 15 日以降、分類、エンティティ抽出、感情分析の目標をカスタマイズするには、Vertex AI Gemini のプロンプトとチューニングに移行する必要があります。Vertex AI AutoML Text のモデルを、分類、エンティティ抽出、感情分析の目標に向けてトレーニングまたは更新することはできなくなります。既存の Vertex AI AutoML Text モデルは、2025 年 6 月 15 日まで引き続き使用できます。AutoML Text と Gemini の比較については、AutoML Text ユーザー向けの Gemini をご覧ください。プロンプト機能の向上による Gemini のユーザーエクスペリエンスの改善について詳しくは、チューニングの概要をご覧ください。チューニングを開始するには、Gemini テキストモデルのモデルチューニングをご覧ください。

動画

ノートブックチュートリアル

AutoML: 表形式

詳細については、選択した環境で次の Jupyter ノートブックを実行してください。

「Vertex AI: AutoML 表形式分類モデルからのバッチ予測結果の評価」:
Colab で開く | Colab Enterprise で開く | Vertex AI Workbench ユーザー管理ノートブックで開く | GitHub で表示する
「Vertex AI Pipelines: バッチ予測結果と AutoML 表形式回帰モデルの評価」:
Colab で開く | Colab Enterprise で開く | Vertex AI Workbench ユーザー管理ノートブックで開く | GitHub で表示する

AutoML: テキスト

AutoML: 動画

カスタムトレーニング: 表形式