Metrik bias model untuk Vertex AI

Halaman ini menjelaskan metrik evaluasi model yang dapat digunakan untuk mendeteksi bias model, yang dapat muncul dalam output prediksi model setelah model dilatih. Untuk contoh dan notasi di halaman ini, kita akan menggunakan set data lamaran ke perguruan tinggi fiktif yang kami jelaskan secara mendetail di Pengantar evaluasi model untuk keadilan.

Untuk deskripsi tentang metrik yang dihasilkan dari data pra-pelatihan, lihat Metrik bias data.

Ringkasan

Dalam set data lamaran ke perguruan tinggi fiktif kita, ada 200 pelamar dari California di slice 1 dan 100 pelamar dari Florida di slice 2. Setelah melatih model, kita mendapatkan matriks konfusi berikut:

Pelamar California Penerimaan (prediksi) Penolakan (prediksi)
Penerimaan (kebenaran nyata) 50 (positif benar) 10 (negatif palsu)
Penolakan (kebenaran nyata) 20 (positif palsu) 120 (negatif benar)
Pelamar Florida Penerimaan (prediksi) Penolakan (prediksi)
Penerimaan (kebenaran nyata) 20 (positif benar) 0 (negatif palsu)
Penolakan (kebenaran nyata) 30 (positif palsu) 50 (negatif benar)

Anda biasanya dapat menafsirkan tanda untuk sebagian besar metrik sebagai berikut:

  • Nilai positif: menunjukkan potensi bias yang lebih condong ke slice 1 daripada slice 2.

  • Nilai nol: menunjukkan tidak ada bias antara slice 1 dan slice 2.

  • Nilai negatif: menunjukkan potensi bias yang lebih condong ke slice 2 daripada slice 1.

Kami mencatat jika hal ini tidak berlaku pada suatu metrik.

Perbedaan Akurasi

Perbedaan Akurasi mengukur perbedaan akurasi antara slice 1 dan slice 2:

$$ \frac{tp_1 + tn_1}{n_1} - \frac{tp_2 + tn_2}{n_2} $$

((Positif benar untuk slice 1 + Negatif benar untuk slice 1)/Jumlah total instance untuk slice 1) - ((Positif benar untuk slice 2 + Negatif benar untuk slice 2)/Jumlah total instance untuk slice 2)

Dalam contoh set data kita:

((50 penerimaan California yang diprediksi dengan benar + 120 penolakan California yang diprediksi dengan benar)/200 pelamar California) - ((20 penerimaan Florida yang diprediksi dengan benar + 50 penolakan Florida yang diprediksi dengan benar)/100 pelamar Florida) = 170/200 - 70/100 = 0,15

Nilai positif Perbedaan Akurasi menunjukkan bahwa model ini lebih akurat untuk pelamar California dibandingkan untuk pelamar Florida. Hal ini dapat menunjukkan potensi bias yang condong ke pelamar California.

Perbedaan Proporsi Positif dalam Label yang Diprediksi (DPPPL)

Perbedaan Proporsi Positif dalam Label yang Diprediksi (DPPPL) mengukur apakah model memiliki kecenderungan untuk membuat secara tidak proporsional lebih banyak prediksi positif untuk satu slice dibandingkan dengan slice satunya. DPPPL menghitung perbedaan Proporsi Positif dalam Label yang Diprediksi, di mana Proporsi Positif dalam Label yang Diprediksi adalah (Hasil positif yang diprediksi/Jumlah total instance) untuk sebuah slice:

$$ \frac{tp_1 + fp_1}{n_1} - \frac{tp_2 + fp_2}{n_2} $$

((Positif benar untuk slice 1 + Positif palsu untuk slice 1)/Jumlah total instance untuk slice 1) - ((Positif benar untuk slice 2 + Positif palsu untuk slice 2)/Jumlah total instance untuk slice 2)

Untuk contoh set data kita:

((50 penerimaan California yang diprediksi dengan benar + 20 penerimaan California yang diprediksi dengan salah)/200 pelamar California) - ((20 penerimaan Florida yang diprediksi dengan benar + 30 penerimaan Florida yang diprediksi dengan salah)/100 pelamar Florida) = 70/200 - 50/100 = -0,15

Nilai negatif DPPPL menunjukkan bahwa model ini secara tidak proporsional menerima lebih banyak pendaftar Florida daripada pelamar California.

Perbedaan Perolehan

Perbedaan Perolehan mengukur perbedaan perolehan antara slice 1 dan slice 2, dengan hanya melihat hasil positif yang diberi label. Perbedaan perolehan disebut juga Peluang yang Sama.

$$ \frac{tp_1}{l^1_1} - \frac{tp_2}{l^1_2} $$

(Positif benar untuk slice 1/(Positif benar untuk slice 1 + Negatif palsu untuk slice 1)) - (Positif benar untuk slice 2/(Positif benar untuk slice 2 + Negatif palsu untuk slice 2))

Dalam contoh set data kita:

(50 penerimaan California yang diprediksi dengan benar/(50 penerimaan California yang diprediksi dengan benar + 10 penolakan California yang diprediksi dengan salah)) - (20 penerimaan Florida yang diprediksi dengan benar/(20 penerimaan Florida yang diprediksi dengan benar + 0 penolakan Florida yang diprediksi dengan salah)) = 50/60 - 20/20 = -0,17

Nilai negatif menunjukkan bahwa model ini lebih baik dalam memperoleh pelamar dari Florida daripada pelamar dari California. Dengan kata lain, model ini cenderung lebih akurat dalam keputusan penerimaannya untuk pelamar dari Florida dibanding untuk pelamar dari California.

Perbedaan Kekhususan

Perbedaan Kekhususan mengukur perbedaan kekhususan, disebut juga tingkat negatif benar, antara slice 1 dan slice 2. Kita bisa menganggapnya sebagai perbedaan peroleh tetapi untuk hasil negatif yang diberi label:

$$ \frac{tn_1}{l^0_1} - \frac{tn_2}{l^0_2} $$

(Negatif benar untuk slice 1/(Negatif benar untuk slice 1 + Positif palsu untuk slice 1)) - (Negatif benar untuk slice 2/(Negatif benar untuk slice 2 + Positif palsu untuk slice 2))

Dalam contoh set data kita:

(120 penolakan California yang diprediksi dengan benar/(120 penolakan California yang diprediksi dengan benar + 20 penerimaan California yang diprediksi dengan salah)) - (50 penolakan Florida yang diprediksi dengan benar/(50 penolakan Florida yang diprediksi dengan benar + 30 penerimaan Florida yang diprediksi dengan salah)) = 120/140 - 50/80 = 0,23

Nilai positif menunjukkan bahwa untuk penolakan lamaran, model ini memiliki perolehan yang lebih baik untuk pelamar dari California dibandingkan dengan pelamar dari Florida. Dengan kata lain, model ini cenderung lebih benar dalam keputusan penolakannya untuk pelamar dari California dibanding untuk pelamar dari Florida.

Perbedaan Rasio Jenis Error

Perbedaan Rasio Jenis Error mengukur perbedaan distribusi error (negatif palsu dan positif palsu) antara slice 1 dan slice 2. Rasio Jenis Error dihitung sebagai (Negatif palsu (Error jenis I)/Positif palsu (Error jenis II)). Perbedaan Rasio Jenis Error disebut juga Persamaan Perlakuan.

$$ \frac{fn_1}{fp_1} - \frac{fn_2}{fp_2} $$

(Negatif palsu untuk slice 1/Positif palsu untuk slice 1) - (Negatif palsu untuk slice 2/Positif palsu untuk slice 2)

Dalam contoh set data kita:

(10 penolakan California yang diprediksi dengan salah/20 penerimaan California yang diprediksi dengan salah) - (0 penolakan Florida yang diprediksi dengan salah/30 penerimaan Florida yang diprediksi dengan salah) = (10/20 - 0/30) = 0,5

Meskipun model ini membuat 30 error untuk pelamar dari California dan Florida, nilai positif untuk Perbedaan Rasio Jenis Error menunjukkan bahwa model cenderung berlebih dalam memprediksi hasil positif (positif palsu lebih tinggi) dan, akibatnya, cenderung kurang dalam memprediksi hasil negatif (error negatif palsu lebih rendah) untuk pelamar dari California dibanding untuk pelamar dari Florida.

Tanda Perbedaan Rasio Jenis Error secara umum dapat ditafsirkan sebagai:

  • Nilai positif: menunjukkan bahwa model secara tidak proporsional membuat lebih banyak error positif palsu daripada error negatif palsu untuk slice 1.

  • Nilai nol: menunjukkan bahwa model membuat jumlah error positif palsu yang sama untuk kedua slice.

  • Nilai negatif: menunjukkan bahwa model secara tidak proporsional membuat lebih banyak error positif palsu daripada error negatif palsu untuk slice 2.

Tanda untuk metrik ini tidak selalu menunjukkan bias dalam model, karena bahaya negatif palsu atau positif palsu bergantung pada penerapan model Anda.

Langkah berikutnya