分類と回帰のための特徴アトリビューション

はじめに

このページでは、Vertex AI で使用可能な特徴アトリビューション方式の概念的な概要を簡単に説明します。技術的な詳細については、AI Explanations に関するホワイトペーパーをご覧ください。

グローバルな特徴の重要度(モデル特徴アトリビューション)は、各特徴がモデルに及ぼす影響を示します。値は、各特徴量の割合で表します。割合が高いほど、その特徴量はモデルのトレーニングに大きく影響します。モデルのグローバルな特徴の重要度を表示するには、評価指標を調べます。

時系列モデルのローカル特徴アトリビューションは、データ内の各特徴が予測値にどの程度影響を及ぼしたかを示します。この情報を使用して、モデルが期待どおりに動作していることを確認し、モデルのバイアスを認識して、モデルやトレーニング データの改善方法を確認できます。予測をリクエストすると、モデルに適した予測値を得られます。説明をリクエストすると、予測に加えて、特徴アトリビューションの情報を得られます。

たとえば、気象データと以前の共有データに基づいて、自転車の走行時間が予測されるようにトレーニングされているディープ ニューラル ネットワークがあるとします。このモデルについて予測のみをリクエストすると、自転車の予測走行時間を分単位で返されます。説明をリクエストすると、自転車の予測走行時間に加えて、説明のリクエストに基づき、特徴ごとのアトリビューション スコアが返されます。アトリビューション スコアは、指定したベースライン値と比較して、その特徴が予測値の変化にどの程度影響を及ぼしたかを示します。モデルに適した有意義なベースラインを選択します。この場合は、自転車の平均走行時間を選択します。

特徴アトリビューション スコアをプロットして、予測結果に最も影響を及ぼした特徴を確認できます。

予測自転車走行時間の特徴アトリビューションの図

オンライン予測ジョブまたはバッチ予測ジョブの実行時に、ローカル特徴アトリビューションを生成してクエリできます。

利点

特定のインスタンスを調べて、トレーニング データセット全体で特徴アトリビューションを集計することで、モデルの仕組みをより詳しく分析できます。次の点を考慮してください。

  • モデルのデバッグ: 特徴アトリビューションは、標準的なモデル評価技法では見落としてしまうことが多いデータ内の問題を検出するのに役立ちます。

  • モデルの最適化: 重要度の低い特徴を特定して削除し、より効率的なモデルを作成できます。

概念上の制限

特徴アトリビューションには、次の制限があります。

  • AutoML のローカル特徴量の重要度など、特徴アトリビューションは個々の予測に固有のものです。個々の予測の特徴アトリビューションを調べることで詳細な洞察を得ることができますが、それらの個々のインスタンスのクラス全体やモデル全体にその洞察を当てはめることができない場合があります。

    AutoML モデルについて、より一般的な洞察を入手するには、モデル特徴量の重要度を参照してください。他のモデルの一般的な洞察を得るには、データセットのサブセット、またはデータセット全体でアトリビューションを集約します。

  • それぞれのアトリビューションは、特徴がそのサンプルの予測にどの程度影響を及ぼしたのかのみを示します。1 つの属性では、モデルの全体的な動作が反映されていない可能性があります。データセット全体に対するモデルのおおまかな動作を把握するには、データセット全体でアトリビューションを集計する必要があります。

  • 特徴アトリビューションはモデルのデバッグに役立ちますが、ある問題が特定のモデルから発生しているのか、モデルをトレーニングしたデータから発生しているのかを必ずしも明確に示すものではありません。最良の判断を下し、共通のデータ問題を診断することで、原因を特定してください。

  • アトリビューションは、モデルとそのモデルのトレーニングに使用されるデータに完全に依存します。データ内でモデルが検出したパターンのみを示すことができ、データ内の基本的な関係を検出することはできません。特定の特徴に強いアトリビューションが存在するかどうかは、特徴と対象との間に関係性があるかどうかに関係ありません。アトリビューションは、そのモデルが予測で特徴を使用しているかどうかを表すだけです。

  • アトリビューションだけでは、モデルが公平で、偏りがなく、高品質かどうかはわかりません。アトリビューションに加えて、トレーニング データと評価指標を慎重に評価します。

制限の詳細については、AI Explanations に関するホワイトペーパーをご覧ください。

特徴アトリビューションの改善

次の要素は、特徴属性に最も大きな影響を与えます。

  • アトリビューション方式では Shapley 値の近似値を計算します。サンプリングされた Shapely メソッドのパスの数を増やすと、近似の精度が向上します。その結果、アトリビューションが大きく変化する可能性があります。
  • 特徴属性は、指定したベースライン値を基準として、その特徴が予測値の変化にどの程度影響を及ぼしたかを示します。モデルに対する質問に合わせて、有意なベースラインを選択してください。ベースラインを切り替えると、アトリビューション値とその解釈が大きく変わることがあります。

アルゴリズム

Vertex AI は、特定の結果に対してゲーム内の各プレーヤーにクレジットを割り当てる協力ゲーム理論アルゴリズムである Shapley 値を使用して、特徴アトリビューションを提供します。ML モデルに適用すると、各モデルの特徴はゲーム内の「プレーヤー」として扱われ、特定の予測結果に比例してクレジットが割り当てられます。構造化データモデルの場合、Vertex AI は、正確な Shapley 値のサンプリング近似値(サンプリングされた Shapley)を使用します。

Shapley 値サンプリング方式の詳しい仕組みについては、サンプリングに基づく Shapley 値近似の推定誤差の境界をご覧ください。

次のステップ

次のリソースから、さらに役立つ教材を得ることができます。