ML ワークフローには、モデルの公平性の評価が含まれることがあります。不公平なモデルは、特に従来から過小評価されているグループに害を及ぼす可能性がある、体系的なバイアスを示します。不公正なモデルは、データセットの特定のサブセット(スライス)に対してパフォーマンスが低下する可能性があります。
バイアスは、データ収集中またはトレーニング後の評価プロセス中に検出できます。Vertex AI には、モデルのバイアスの評価に役立つ次のモデル評価指標が用意されています。
データバイアス指標: モデルをトレーニングして構築する前に、これらの指標によって元データにバイアスが含まれているかどうかが検出されます。たとえば、笑顔検出データセットに含まれる高齢者が、若い人よりもはるかに少ない場合があります。これらの指標のいくつかは、さまざまなデータのグループのラベル分布間の距離の定量化に基づいています。
母集団のサイズの違い
真のラベルにおける正の割合の差
モデルバイアス指標: モデルをトレーニングした後、これらの指標により、モデルの予測にバイアスが含まれているかどうかが検出されます。たとえば、あるモデルでは、あるデータのサブセットに対する精度が、他のデータよりも高い場合があります。
精度の差。
予測ラベルの正の割合の差。
再現率の差異。
特異性の差。
エラータイプの比率の差。
パイプライン実行にモデル評価バイアス パイプライン コンポーネントを含める方法については、モデル評価コンポーネントをご覧ください。
サンプル データセットの概要
公平性の指標に関連するすべての例で、出願者の学年、州、性同一性などの特徴を持つ架空の大学出願データセットを使用します。この大学がカリフォルニア州またはフロリダ州の出願者に偏っているかどうかを測定します
ターゲット ラベル、または可能性のあるすべての結果は次のとおりです。
奨学金を受ける出願者を受け入れる(
p
)。奨学金なしの出願者を受け入れる(
q
)出願者を拒否する(
r
)。
これらのラベルは、入学の専門家がグラウンド トゥルースとして提供していると想定できます。なお、これらの専門家ラベルは人間によって割り当てられたものであるため、偏っている可能性もあります。
バイナリ分類の例を作成するには、ラベルをグループ化して、次の 2 つの結果を作成します。
肯定的な結果。
1
と表記されます。p
とq
を、「承認された{p,q}
」という肯定的な結果にグループ化できます。否定的な結果。
0
と表記されます。これは、肯定的な結果以外のすべての結果のコレクションである可能性があります。大学のアプリケーションの例では、陰性の結果は「拒否」{r}
です。
カリフォルニア州とフロリダ州の出願者のバイアスを測定するため、データセットの残りの部分から 2 つのスライスを分離します。
バイアスを測定するデータセットのスライス 1。大学出願の例では、カリフォルニア出身の出願者のバイアスを測定します。
バイアスを測定するデータセットのスライス 2。スライス 2 には、デフォルトで「スライス 1 に含まれないすべて」を含めることができますが、大学出願の例では、スライス 2 をフロリダ州の出願者として割り当てます。
サンプルの大学出願データセット内のスライス 1 にはカリフォルニア州の出願者 200 人、スライス 2 のフロリダ州の出願者 100 人が含まれています。モデルをトレーニングすると、次の混同行列が取得できます。
カリフォルニア州の出願者 | 合格(予測) | 不合格(予測) |
---|---|---|
合格(正解) | 50(真陽性) | 10(偽陰性) |
不合格(正解) | 20(偽陽性) | 120(真陰性) |
フロリダ州の出願者 | 合格(予測) | 不合格(予測) |
---|---|---|
合格(正解) | 20(真陰性) | 0(偽陽性) |
不合格(正解) | 30(偽陽性) | 50(真陰性) |
2 つの混同行列の指標を比較することで、「あるスライスのモデルの再現率が他方のスライスよりも高いか」といった問いに答えることで、バイアスを測定できます。
また、次の省略形を使用して、ラベル付きグラウンド トゥルース データを表現します。ここで、i
はスライス番号(1 または 2)を表します。
i
の場合、ラベル付きの陽性の結果の数 = 偽陰性 + 真陽性の数。
大学出願のデータセットの例について、次の点に注意してください。
一部の公平性指標は複数の結果に対して一般化できますが、簡略化のためにバイナリ分類を使用します。
この例では分類タスクに焦点を当てていますが、一部の公平性指標は回帰などの他の問題に一般化されます。
この例では、トレーニング データとテストデータが同じであると仮定します。