Vertex AI 的数据偏差指标

本页面介绍了可用于检测数据偏差的评估指标,这些指标可能会在训练模型之前显示在原始数据和标准答案值中。对于本页面中的示例和表示法,我们使用了一个假设的大学应用数据集,该数据集在公平性模型评估简介中进行了详细介绍。

如需了解根据训练后数据生成的指标,请参阅模型偏差指标

概览

在我们的示例大学应用数据集中,切片 1 中有 200 位来自加利福尼亚州的申请者,切片 2 中有 100 位佛罗里达州申请者,如下标记:

切片 拒绝 接受
加利福尼亚 140 60
佛罗里达 80 20

通常,您可以解释大多数指标的符号,如下所示:

  • 正值:表示切片 2 优先于切片 1 存在潜在偏差。

  • 零值:表示切片 1 和切片 2 之间没有偏差。

  • 负值:表示切片 2 优先于切片 1 存在潜在偏差。

我们会记下不适用于指标的位置。

人群规模差异

人群规模差异衡量切片 1 与切片 2 中是否存在更多示例,按两个切片的人群总数进行归一化:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(切片 1 的人数总数 - 切片 2 的人数总数)/(切片 1 和 2 中的人群总和)

在我们的示例数据集中:

(200 位加利福尼亚州申请者 - 100 位佛罗里达州申请者)/ 300 位总申请者 = 100/300 = 0.33。

人群规模差异的正值表示加利福尼亚州申请者偏多于佛罗里达州申请者。正值本身不一定表示偏差,但当根据此数据训练模型时,模型可能会学习对加利福尼亚州申请者的表现更好。

真正标签的正例比例差异 (DPPTL)

真正标签的正例比例差异衡量数据集对一个切片使用的正例标准答案标签是否偏多于另一个切片。此指标会计算切片 1 和切片 2 之间的真正标签的正例比例差异,其中切片的真正标签的正例比例为加标签的正结果数/人群规模总数。此指标也称为标签不平衡

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(切片 1 加标签的正结果数/切片 1 的人群规模总数)-(切片 2 加标签的正结果数/切片 2 的人群规模总数)

在我们的示例数据集中:

(60 位接受的加利福尼亚州申请者/200 位加利福尼亚州申请者)-(20 位接受的佛罗里达州申请者/100 位佛罗里达州申请者)= 60/200 - 20/100 = 0.1。

DPPTL 的正值表示,数据集针对加利福尼亚州申请者的正结果偏多于佛罗里达州申请者。正值本身不一定表示偏差,但当根据此数据训练模型时,模型可能会学习针对加利福尼亚州申请者的正结果偏多。

后续步骤