Vertex AI でのモデル評価

Vertex AI には、予測 AI モデルと生成 AI モデルの両方にモデル評価指標が用意されています。このページでは、予測 AI モデルの評価サービスの概要について説明します。生成 AI モデルを評価するには、生成 AI 評価サービスの概要をご覧ください。

予測 AI 評価サービスを使用すると、特定のユースケースでモデルのパフォーマンスを評価できます。評価は、モデルのパフォーマンスのオブザーバビリティとも呼ばれます。Vertex AI が提供するモデル評価は、いくつかの点で一般的な ML ワークフローに適合しています。

  • モデルをトレーニングした後、モデルをデプロイする前にモデル評価指標を確認します。複数のモデルの評価指標を比較して、デプロイするモデルを決定できます。

  • モデルが本番環境にデプロイされたら、新しい受信データを使用してモデルを定期的に評価します。評価指標でモデルのパフォーマンスが低下している場合は、モデルの再トレーニングを検討してください。このプロセスは継続評価と呼ばれます。

これらの評価指標をどのように解釈し、使用するかは、ビジネスニーズや、どのような問題をモデルのトレーニングで解決するかによって異なります。たとえば、偽陽性の許容範囲が偽陰性の許容範囲よりも低い場合もあれば、その逆の場合もあります。このような質問に対する答えは、モデルに対して反復処理を行うときに重視する指標に影響します。

予測 AI モデル評価サービスが提供する主な指標には、次のようなものがあります。

機能

Vertex AI でモデルを評価するには、トレーニング済みモデル、バッチ予測出力、正解データセットが必要です。Vertex AI を使用した一般的なモデル評価ワークフローを次に示します。

  1. モデルをトレーニングします。この操作は、AutoML またはカスタム トレーニングを使用して Vertex AI で行うことができます。

  2. モデルに対してバッチ予測ジョブを実行し、予測結果を生成します。

  3. 正解データ(人間が判断した「正しくラベル付けされた」データ)を準備します。正解は通常、モデルのトレーニング プロセスで使用したテスト データセットの形式になります。

  4. モデルに対して評価ジョブを実行します。これにより、正解データに対するバッチ予測結果の精度が評価されます。

  5. 評価ジョブから得られた指標を分析します。

  6. モデルを繰り返し実行して、モデルの精度を改善できるか確認します。複数の評価ジョブを実行し、モデルまたはモデル バージョン間で複数のジョブの結果を比較できます。

Vertex AI では、いくつかの方法でモデル評価を実行できます。

Vertex AI では、次のモデルタイプの評価がサポートされています。

画像

分類

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • AuPRC: 適合率 / 再現率(PR)曲線の下の領域の面積。平均適合率とも呼ばれます。この値は範囲が 0~1 で、値が高いほど高品質のモデルであることを示します。
  • ログ損失: モデル予測とターゲット値の間のクロス エントロピー。この範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
  • 信頼度しきい値: 返される予測を仕分ける信頼度のスコア。モデルはこの値以上の予測を返します。信頼度しきい値が高いほど、適合率は向上しますが、再現率は低くなります。Vertex AI は、さまざまなしきい値に対する信頼指標を返し、しきい値が適合率再現率にどのように影響するかを示します。
  • 再現率: このクラスの予測のうち、モデルが正しく予測した割合。真陽性率とも呼ばれます。
  • 適合率: モデルによって生成された分類予測のうち正しい分類であった割合。
  • 混同行列: 混同行列は、モデルによる予測のうち正しい予測の頻度を示します。間違った予測結果に対しては、代わりに、モデルが予測した内容を表示します。混同行列は、モデルが 2 つの結果を「混同」している場所を把握するのに役立ちます。

表形式

分類

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • AuPRC: 適合率 / 再現率(PR)曲線の下の領域の面積。平均適合率とも呼ばれます。この値は範囲が 0~1 で、値が高いほど高品質のモデルであることを示します。
  • AuROC: 受信者操作特性曲線の下の面積。この範囲は 0~1 で、値が高いほど高品質のモデルであることを示します。
  • ログ損失: モデル予測とターゲット値の間のクロス エントロピー。この範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
  • 信頼度しきい値: 返される予測を仕分ける信頼度のスコア。モデルはこの値以上の予測を返します。信頼度しきい値が高いほど、適合率は向上しますが、再現率は低くなります。Vertex AI は、さまざまなしきい値に対する信頼指標を返し、しきい値が適合率再現率にどのように影響するかを示します。
  • 再現率: このクラスの予測のうち、モデルが正しく予測した割合。真陽性率とも呼ばれます。
  • 再現率 1: 予測スコアが最も高く、各サンプルの信頼度のしきい値を下回らないラベルのみを考慮した場合の再現率(真陽性率)。
  • 適合率: モデルによって生成された分類予測のうち正しい分類であった割合。
  • 適合率 1: 予測スコアが最も高く、各サンプルの信頼度のしきい値を下回らないラベルのみを考慮した場合の適合率。
  • F1 スコア: 適合率と再現率の調和平均。適合率と再現率のバランスを求めていて、クラス分布が不均一な場合、F1 は有用な指標となります。
  • F1 スコア 1: 再現率 1 と適合率 1 の調和平均です。
  • 混同行列: 混同行列は、モデルによる予測のうち正しい予測の頻度を示します。間違った予測結果に対しては、代わりに、モデルが予測した内容を表示します。混同行列は、モデルが 2 つの結果を「混同」している場所を把握するのに役立ちます。
  • 真陰性数: モデルが陰性クラスを正しく予測した回数。
  • 真陽性数: モデルが陽性クラスを正しく予測した回数。
  • 偽陰性数: モデルが陰性クラスを誤って予測した回数。
  • 偽陽性数: モデルが陽性クラスを誤って予測した回数。
  • 偽陽性率: すべての予測結果のうち、陽性の予測が間違っていた割合。
  • 偽陽性率 1: 予測スコアが最も高く、各サンプルの信頼度のしきい値を下回らないラベルのみを考慮した場合の偽陽性率。
  • モデル特徴アトリビューション: Vertex AI によって、各特徴量がモデルに及ぼす影響が示されます。値は、各特徴量の割合で表します。割合が高いほど、その特徴量はモデルのトレーニングに大きく影響します。この情報を確認して、特に重要なすべての特徴量がデータとビジネスの問題に対して適切であることを確認してください。

回帰

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • MAE: 平均絶対誤差(MAE)とは、ターゲット値と予測値との間の平均絶対差のことです。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
  • RMSE: 二乗平均平方根誤差(RMSE)とは、ターゲット値と予測値の平均二乗誤差の平方根です。RMSE は MAE よりも外れ値の影響を受けやすいため、大きな誤差が心配な場合は RMSE のほうがより便利な評価指標といえます。MAE と同様に、値が小さいほど高品質のモデルであることを示します(0 は完全な予測因子を表します)。
  • RMSLE: 二乗平均対数平方誤差の指標は、RMSE と似ていますが、予測値と実測値に 1 を加えた自然対数を使用する点が異なります。RMSLE は、過剰予測よりも過小予測に重いペナルティを与えます。小さい予測値の差よりも大きい予測値の差のペナルティが重くならないようにする場合にも、この指標を使用することをおすすめします。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。RMSLE 評価指標は、すべてのラベルと予測値が負でない場合にのみ返されます。
  • r^2: r 2 乗(r^2)は、ラベルと予測値間のピアソン相関係数の 2 乗です。この指標の範囲は 0~1 です。値が大きいほど、回帰直線に近いことを示します。
  • MAPE: 平均絶対誤差率(MAPE)は、ラベルと予測値の間の平均絶対パーセント誤差です。この指標の範囲はゼロから無限大までで、値が低いほど高品質のモデルであることを示します。
    ターゲット列に 0 の値が含まれている場合、MAPE は表示されません。この場合、MAPE は未定義です。
  • モデル特徴アトリビューション: Vertex AI によって、各特徴量がモデルに及ぼす影響が示されます。値は、各特徴量の割合で表します。割合が高いほど、その特徴量はモデルのトレーニングに大きく影響します。この情報を確認して、特に重要なすべての特徴量がデータとビジネスの問題に対して適切であることを確認してください。

予測

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • MAE: 平均絶対誤差(MAE)とは、ターゲット値と予測値との間の平均絶対差のことです。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
  • RMSE: 二乗平均平方根誤差(RMSE)とは、ターゲット値と予測値の平均二乗誤差の平方根です。RMSE は MAE よりも外れ値の影響を受けやすいため、大きな誤差が心配な場合は RMSE のほうがより便利な評価指標といえます。MAE と同様に、値が小さいほど高品質のモデルであることを示します(0 は完全な予測因子を表します)。
  • RMSLE: 二乗平均対数平方誤差の指標は、RMSE と似ていますが、予測値と実測値に 1 を加えた自然対数を使用する点が異なります。RMSLE は、過剰予測よりも過小予測に重いペナルティを与えます。小さい予測値の差よりも大きい予測値の差のペナルティが重くならないようにする場合にも、この指標を使用することをおすすめします。この指標の範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。RMSLE 評価指標は、すべてのラベルと予測値が負でない場合にのみ返されます。
  • r^2: r 2 乗(r^2)は、ラベルと予測値間のピアソン相関係数の 2 乗です。この指標の範囲は 0~1 です。値が大きいほど、回帰直線に近いことを示します。
  • MAPE: 平均絶対誤差率(MAPE)は、ラベルと予測値の間の平均絶対パーセント誤差です。この指標の範囲はゼロから無限大までで、値が低いほど高品質のモデルであることを示します。
    ターゲット列に 0 の値が含まれている場合、MAPE は表示されません。この場合、MAPE は未定義です。
  • WAPE: 加重絶対パーセント誤差(WAPE)とは、観測された値全体を通じた、モデルによって予測された値と観測された値との全体的な差です。RMSE と比較すると、WAPE では個々の差ではなく全体的な差に重点が置かれます。個々の差に重点を置くと、小さい値や断続的な値に大きな影響を受けることがあります。値が小さいほど、高品質のモデルであることを示します。
  • RMSPE: 平均二乗パーセント誤差の平方根(RMPSE)は、RMSE を、絶対数に対する割合ではなく、実際の値に対する割合として示したものです。値が小さいほど、高品質のモデルであることを示します。
  • 分位数: 観測値が予測値を下回る可能性を表すパーセント分位数です。たとえば、0.5 分位数は、観測値が予測値よりも低くなる可能性が 50% であることを示します。
  • 観測された分位数: 特定の分位数について、実際の値が予測値を下回った割合を示します。
  • スケールド ピンボールロス: 特定の分位数における、スケーリングされたピンボールロス。値が小さいほど、該当の分位数において高品質のモデルであることを示します。

テキスト

分類

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • AuPRC: 適合率 / 再現率(PR)曲線の下の領域の面積。平均適合率とも呼ばれます。この値は範囲が 0~1 で、値が高いほど高品質のモデルであることを示します。
  • ログ損失: モデル予測とターゲット値の間のクロス エントロピー。この範囲はゼロから無限大までで、値が小さいほど高品質のモデルであることを示します。
  • 信頼度しきい値: 返される予測を仕分ける信頼度のスコア。モデルはこの値以上の予測を返します。信頼度しきい値が高いほど、適合率は向上しますが、再現率は低くなります。Vertex AI は、さまざまなしきい値に対する信頼指標を返し、しきい値が適合率再現率にどのように影響するかを示します。
  • 再現率: このクラスの予測のうち、モデルが正しく予測した割合。真陽性率とも呼ばれます。
  • 再現率 1: 予測スコアが最も高く、各サンプルの信頼度のしきい値を下回らないラベルのみを考慮した場合の再現率(真陽性率)。
  • 適合率: モデルによって生成された分類予測のうち正しい分類であった割合。
  • 適合率 1: 予測スコアが最も高く、各サンプルの信頼度のしきい値を下回らないラベルのみを考慮した場合の適合率。
  • 混同行列: 混同行列は、モデルによる予測のうち正しい予測の頻度を示します。間違った予測結果に対しては、代わりに、モデルが予測した内容を表示します。混同行列は、モデルが 2 つの結果を「混同」している場所を把握するのに役立ちます。
  • F1 スコア: 適合率と再現率の調和平均。適合率と再現率のバランスを求めていて、クラス分布が不均一な場合、F1 は有用な指標となります。
  • F1 スコア 1: 再現率 1 と適合率 1 の調和平均です。

動画

分類

スキーマ ファイルは、Cloud Storage 上の gs://google-cloud-aiplatform/schema/modelevaluation/ からダウンロードできます。

  • AuPRC: 適合率 / 再現率(PR)曲線の下の領域の面積。平均適合率とも呼ばれます。この値は範囲が 0~1 で、値が高いほど高品質のモデルであることを示します。
  • 信頼度しきい値: どの予測を返すかを決定する信頼度のスコア。モデルはこの値以上の予測を返します。信頼度しきい値が高いほど、適合率は向上しますが、再現率は低くなります。Vertex AI は、さまざまなしきい値に対する信頼指標を返し、しきい値が適合率再現率にどのように影響するかを示します。
  • 再現率: このクラスの予測のうち、モデルが正しく予測した割合。真陽性率とも呼ばれます。
  • 適合率: モデルによって生成された分類予測のうち正しい分類であった割合。
  • 混同行列: 混同行列は、モデルによる予測のうち正しい予測の頻度を示します。間違った予測結果に対しては、代わりに、モデルが予測した内容を表示します。混同行列は、モデルが 2 つの結果を「混同」している場所を把握するのに役立ちます。
  • F1 スコア: 適合率と再現率の調和平均。適合率と再現率のバランスを求めていて、クラス分布が不均一な場合、F1 は有用な指標となります。

ノートブック チュートリアル

AutoML: 表形式

AutoML: テキスト

AutoML: 動画

カスタム トレーニング: 表形式

Vertex AI Model Registry

次のステップ