機器學習工作流程可以包含評估模型是否公平。不公平的模型會顯示系統性偏誤,可能造成傷害,尤其是對傳統上代表性不足的群體。不公平的模型可能會對資料集中的特定子集或切片,產生較差的結果。
您可以在資料收集或訓練後評估過程中偵測偏差。Vertex AI 提供下列模型評估指標,協助您評估模型是否有偏誤:
資料偏見指標:在訓練及建構模型前,這些指標會偵測原始資料是否含有偏見。舉例來說,微笑偵測資料集可能包含的年長者遠少於年輕人。其中幾項指標是根據不同資料群組的標籤分布距離量化結果計算得出:
人口規模差異。
真實標籤中正向比例的差異。
模型偏見指標:訓練模型後,這些指標會偵測模型的預測結果是否含有偏見。舉例來說,模型可能對某個資料子集的準確度高於其他資料:
準確度差異。
預測標籤中正向比例的差異。
回想差異。
優先權差異。
錯誤類型比例的差異。
如要瞭解如何在 pipeline 執行中納入模型評估偏差 pipeline 元件,請參閱模型評估元件。
範例資料集總覽
在所有與公平性指標相關的範例中,我們都會使用假設的大學入學資料集,其中包含申請人的高中成績、州別和性別認同等特徵。我們要評估該大學是否偏好加州或佛羅里達州的申請人。
目標標籤或所有可能結果如下:
接受獎學金申請人 (
p
)。接受申請者,但不提供獎學金 (
q
)拒絕申請人 (
r
)。
我們可以假設入學專家提供的這些標籤是實際資料。請注意,即使是這些專家標籤也可能帶有偏見,因為是由人為指派。
如要建立二元分類範例,我們可以將標籤分組,建立兩種可能的結果:
結果為正面,以
1
表示。我們可以將p
和q
分組為「已接受{p,q}
」的正面結果。負面結果,以
0
表示。這可以是除了正面結果以外的所有其他結果集合。在大學申請範例中,負面結果是「遭拒」。{r}
如要測量加州和佛羅里達州申請人之間的偏差,我們從其餘資料集區分出兩個切片:
用於評估偏差的資料集切片 1。在大學申請範例中,我們測量加州申請人的偏誤。
用來評估偏差的資料集第 2 個切片。根據預設,切片 2 可以包含「切片 1 中未包含的所有內容」,但以大學申請為例,我們將切片 2 指派為佛羅里達州申請人。
在我們的範例大學申請資料集中,資料配量 1 有 200 位加州申請者,資料配量 2 則有 100 位佛羅里達州申請者。訓練模型後,我們會得到下列混淆矩陣:
加州應徵者 | 接受率 (預測) | 拒絕 (預測) |
---|---|---|
接受 (真值) | 50 (真陽性) | 10 (偽陰性) |
拒絕 (實際資料) | 20 (偽陽性) | 120 (真陰性) |
佛羅里達州申請人 | 接受率 (預測) | 拒絕 (預測) |
---|---|---|
接受 (真值) | 20 (真陽性) | 0 (偽陰性) |
拒絕 (實際資料) | 30 (偽陽性) | 50 (真陰性) |
比較兩個混淆矩陣之間的指標,即可回答「模型對某個切片的召回率是否高於其他切片?」等問題,進而評估偏差。
我們也會使用下列簡寫來表示標示的實際資料,其中 i
代表切片編號 (1 或 2):
i
,標示為正向結果的數量 = 偽陰性 + 真陽性。
請注意下列大學申請資料集範例的相關事項:
部分公平性指標也可適用於多種結果,但為求簡化,我們使用二元分類。
本範例著重於分類工作,但部分公平性指標可泛用於迴歸等其他問題。
在本範例中,我們假設訓練資料和測試資料相同。
後續步驟
瞭解 Vertex AI 支援的資料偏差指標。
瞭解 Vertex AI 支援的模型偏差指標。
請參閱模型評估管道元件參考資料。