このページでは、データバイアスの検出に使用できる評価指標について説明します。データバイアスは、モデルをトレーニングする前であっても、元データとグラウンド トゥルースの値に見られることがあります。このページの例と表記法では、公平性のためのモデル評価の概要で詳細に説明されている架空の大学出願データセットを使用します。
トレーニング後のデータから生成される指標の説明については、モデルバイアスの指標をご覧ください。
概要
この大学出願データセットの例では、スライス 1 にカリフォルニア州の出願者 200 人、スライス 2 にフロリダ州の出願者 100 人が含まれており、以下のようにラベル付けされています。
スライス | 拒否 | 承認 |
---|---|---|
カリフォルニア | 140 | 60 |
フロリダ | 80 | 20 |
一般的に、ほとんどの指標の符号は次のように解釈できます。
正の値: スライス 2 よりもスライス 1 を優先する潜在的なバイアスを示します。
ゼロ値: スライス 1 とスライス 2 の間にバイアスがないことを示します。
負の値: スライス 1 よりもスライス 2 を優先する場合の潜在的なバイアスを示します。
指標に該当しない場合、お知らせします。
母集団のサイズの違い
母集団サイズの違いは、スライス 1 とスライス 2 にさらにサンプルがあるかどうかを測定し、2 つのスライスの合計母集団で正規化します。
(スライス 1 の合計母集団 - スライス 2 の合計母集団)÷ (スライス 1 とスライス 2 の母集団の合計)
サンプル データセットの場合:
(カリフォルニアの申請者 200 人 - フロリダの申請者 100 人)/ 合計 300 件の申請者 = 100/300 = 0.33
母集団サイズの違いが正の値の場合は、カリフォルニアの申請者がフロリダの申請者よりもかなり多いことがわかります。正の値はそれ自体にバイアスがあるとは限りませんが、このデータでモデルをトレーニングすると、カリフォルニアの申請者のほうがパフォーマンスが良いと学習する可能性があります。
真のラベルにおける正の割合の差(DPPTL)
真のラベルにおける正の割合の差は、データセットがあるスライスを他のスライスよりも不均一な正の正解ラベルを多く持つかどうかを測定します。この指標は、スライス 1 とスライス 2 の間の真のラベルにおける正の割合の差を計算します。ここで、スライスの真のラベルにおける正の割合は(ラベル付き正の結果 ÷ 母集団の合計サイズ)です。この指標は、ラベルの不均衡とも呼ばれます。
(スライス 1 のラベル付き正の結果/スライス 1 の母集団の合計サイズ)-(スライス 2 のラベル付き正の結果/スライス 2 の母集団の合計サイズ)
サンプル データセットの場合:
(カリフォルニア申請者 60 人/カリフォルニア申請者 200 人)- (フロリダ申請者 20 人/フロリダ申請者 100 人)= 60/200 - 20/100 = 0.1
DPPTL の正の値は、カリフォルニア申請者は、フロリダ申請者と比べて、データセットがかなり高い正の結果であることを示しています。正の値は単独でバイアスを示す場合とそうでない場合がありますが、モデルはこのデータでトレーニングすると、カリフォルニア申請者に対してかなり高い正の結果を予測する場合があります。
次のステップ
Vertex AI でサポートされているモデルバイアス指標について学習する。