本頁面說明可用於偵測資料偏誤的評估指標。即使在訓練模型之前,原始資料和實際資料值中也可能出現資料偏誤。本頁的範例和符號使用假設的大學申請資料集,詳情請參閱「公平性模型評估簡介」。
如要瞭解根據訓練後資料產生的指標,請參閱模型偏誤指標。
總覽
在我們的範例大學申請資料集中,資料配量 1 有 200 位加州申請者,資料配量 2 有 100 位佛羅里達州申請者,標籤如下:
配量 | 拒絕 | 接受 |
---|---|---|
加州 | 140 | 60 |
佛羅里達州 | 80 | 20 |
一般來說,您可以按照下列方式解讀大多數指標的符號:
正值:表示可能偏好第 1 個區隔,而非第 2 個區隔。
值為零:表示片段 1 和片段 2 之間沒有偏差。
負值:表示可能偏好第 2 個類別,而非第 1 個類別。
如果指標不適用這項做法,我們會註明。
人口規模差異
「母體大小差異」會測量切片 1 的樣本數是否多於切片 2,並以兩個切片的母體總數進行正規化:
(第 1 個切片總人口 - 第 2 個切片總人口) / (第 1 個和第 2 個切片的人口總和)
在範例資料集中:
(200 位加州申請人 - 100 位佛羅里達州申請人)/ 300 位申請人總數 = 100/300 = 0.33。
「人口規模差異」的正值表示加州申請人的人數比例高於佛羅里達州申請人。正值本身可能或可能不會指出偏誤,但如果模型是根據這項資料訓練,模型可能會學到如何為加州申請人提供更優質的服務。
實際標籤中正向比例的差異 (DPPTL)
「實際標籤中正向比例的差異」會評估資料集是否在某個切片中,正向實際標籤的比例明顯高於其他切片。這項指標會計算切片 1 和切片 2 之間,真實標籤中正向比例的差異。切片真實標籤中的正向比例為 (標示為正向的結果 / 總母體大小)。這項指標也稱為「標籤不平衡」:
(切片 1 的標示正向結果/切片 1 的總母體大小) - (切片 2 的標示正向結果/切片 2 的總母體大小)
在範例資料集中:
(60 位加州申請人獲准/200 位加州申請人) - (20 位佛羅里達州申請人獲准/100 位佛羅里達州申請人) = 60/200 - 20/100 = 0.1。
DPPTL 的正值表示,相較於佛羅里達州申請人,加州申請人的資料集有不成比例的高正向結果。正值本身可能或可能不會指出偏誤,但如果模型是根據這項資料訓練,模型可能會學到加州申請人獲得正面結果的比例過高。
後續步驟
瞭解 Vertex AI 支援的模型偏差指標。
請參閱模型評估管道元件參考資料。