本頁面由 Cloud Translation API 翻譯而成。

模型公平性評估簡介

機器學習工作流程可以包含評估模型是否公平。不公平的模型會顯示系統性偏誤，可能造成傷害，尤其是對傳統上代表性不足的群體。不公平的模型可能會對資料集中的特定子集或切片表現不佳。

您可以在資料收集或訓練後評估過程中偵測偏誤。Vertex AI 提供下列模型評估指標，協助您評估模型是否有偏誤：

資料偏見指標：在訓練及建構模型前，這些指標會偵測原始資料是否含有偏見。舉例來說，微笑偵測資料集可能包含的年長者遠少於年輕人。其中幾項指標是根據不同資料群組的標籤分布距離量化結果而得：
- 人口規模差異。
- 真實標籤中正向比例的差異。
模型偏見指標：訓練模型後，這些指標會偵測模型的預測結果是否含有偏見。舉例來說，模型可能對某個資料子集的準確度高於其他資料：
- 準確度差異。
- 預測標籤中正向比例的差異。
- 回想差異。
- 優先權差異。
- 錯誤類型比例的差異。

如要瞭解如何在 pipeline 執行中納入模型評估偏差 pipeline 元件，請參閱模型評估元件。

範例資料集總覽

在所有與公平性指標相關的範例中，我們都會使用假設的大學入學資料集，其中包含申請人的高中成績、州別和性別認同等特徵。我們要評估該大學是否偏好加州或佛羅里達州的申請人。

目標標籤或所有可能結果如下：

我們可以假設入學專家提供的這些標籤是實際資料。請注意，即使是這些專家標籤也可能帶有偏見，因為是由人為指派。

如要建立二元分類範例，我們可以將標籤分組，建立兩種可能的結果：

如要測量加州和佛羅里達州申請人之間的偏差，我們會從其餘資料集區分出兩個切片：

在我們的範例大學申請資料集中，資料配量 1 有 200 位加州申請者，資料配量 2 則有 100 位佛羅里達州申請者。訓練模型後，我們會得到下列混淆矩陣：

加州應徵者	接受率 (預測)	拒絕 (預測)
接受 (真值)	50 (真陽性)	10 (偽陰性)
拒絕 (實際資料)	20 (偽陽性)	120 (真陰性)

佛羅里達州求職者	接受率 (預測)	拒絕 (預測)
接受 (真值)	20 (真陽性)	0 (偽陰性)
拒絕 (實際資料)	30 (偽陽性)	50 (真陰性)

比較兩個混淆矩陣之間的指標，即可回答「模型對某個切片的召回率是否高於其他切片？」等問題，進而評估偏差。

我們也會使用下列簡寫來表示標示的實際資料，其中 i 代表切片編號 (1 或 2)：

\( l^0_i = tn_i + fp_i \)

對於切片 i，標示為負面結果的數量 = 真陰性 + 偽陽性。

\( l^1_i = fn_i + tp_i \)

對於切片 i，標示為正向結果的數量 = 偽陰性 + 真陽性。

請注意下列大學申請資料集範例的相關事項：