Vertex AI 的資料偏差指標

本頁面說明可用於偵測資料偏誤的評估指標。資料偏誤可能出現在原始資料和實際資料值中,甚至在您訓練模型之前就會出現。本頁的範例和符號使用假設的大學申請資料集,詳情請參閱「Introduction to model evaluation for fairness」(公平性模型評估簡介)。

如要瞭解從訓練後資料產生的指標,請參閱模型偏誤指標

總覽

在我們的範例大學申請資料集中,資料配量 1 有 200 位加州申請者,資料配量 2 有 100 位佛羅里達州申請者,標籤如下:

配量 拒絕 接受
加州 140 60
佛羅里達州 80 20

一般來說,您可以按照下列方式解讀大多數指標的符號:

  • 正值:表示可能偏好第 1 個類別,而非第 2 個類別。

  • 值為零:表示片段 1 和片段 2 之間沒有偏差。

  • 負值:表示可能偏好第 2 個區隔,而非第 1 個區隔。

如果指標不適用這項做法,我們會註明。

人口規模差異

「母體大小差異」會測量切片 1 的樣本數是否多於切片 2,並以兩個切片的母體總數進行正規化:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(第 1 個切片總人口 - 第 2 個切片總人口) / (第 1 個和第 2 個切片的人口總和)

在範例資料集中

(200 位加州申請人 - 100 位佛羅里達州申請人)/ 300 位申請人總數 = 100/300 = 0.33。

「人口規模差異」的正值表示加州申請人的人數比例高於佛羅里達州申請人。正值本身可能或可能不會指出偏誤,但如果模型是根據這項資料訓練,模型可能會學到如何為加州申請人提供更優質的服務。

實際標籤中正向比例的差異 (DPPTL)

「實際標籤中正向比例的差異」會評估資料集是否在某個切片中,正向實際標籤的比例明顯高於其他切片。這項指標會計算切片 1 和切片 2 之間,真實標籤中正向比例的差異。切片真實標籤中的正向比例為 (標示為正向的結果 / 總母體大小)。這項指標也稱為「標籤不平衡」

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(切片 1 的標示正向結果/切片 1 的總母體大小) - (切片 2 的標示正向結果/切片 2 的總母體大小)

在範例資料集中

(60 位加州申請人獲准/200 位加州申請人) - (20 位佛羅里達州申請人獲准/100 位佛羅里達州申請人) = 60/200 - 20/100 = 0.1。

DPPTL 的正值表示,相較於佛羅里達州申請人,加州申請人的資料集有不成比例的高正向結果。正值本身可能或可能不會指出偏誤,但如果模型是根據這項資料訓練,模型可能會學到加州申請人獲得正面結果的比例過高。

後續步驟