Métricas de sesgo de modelo para Vertex AI

En esta página, se describen las métricas de evaluación del modelo que puedes usar para detectar sesgos del modelo, que pueden aparecer en el resultado de la predicción del modelo después de entrenarlo. Para los ejemplos y la notación de esta página, usamos un conjunto de datos hipotético de aplicación universitaria que se describe en detalle en Introducción a la evaluación de modelos para la equidad.

Para obtener descripciones de las métricas que se generan a partir de datos de entrenamiento previo, consulta Métricas de sesgo de datos.

Descripción general

En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 empleados de Florida en la porción 2. Después de entrenar el modelo, tenemos las siguientes matrices de confusión:

Solicitantes de California	Aceptaciones (previstas)	Rechazos (previstos)
Aceptaciones (verdad fundamental)	50 (verdadero positivo)	10 (falso negativo)
Rechazos (verdad fundamental)	20 (falso positivo)	120 (verdadero negativo)

Solicitantes de Florida	Aceptaciones (previstas)	Rechazos (previstos)
Aceptaciones (verdad fundamental)	20 (verdadero positivo)	0 (falso negativo)
Rechazos (verdad fundamental)	30 (falso positivo)	50 (verdadero negativo)

Por lo general, puedes interpretar el signo para la mayoría de las métricas de la siguiente manera:

Valor positivo: indica un posible sesgo que favorece la porción 1 sobre la porción 2.
Valor cero: indica que no hay sesgo entre la porción 1 y la porción 2.
Valor negativo: indica un posible sesgo a favor de la porción 2 sobre la porción 1.

Hacemos nota de esto cuando no se aplica a una métrica.

Diferencia en la precisión

La diferencia de precisión mide la diferencia en la exactitud entre la porción 1 y la porción 2:

$$ \frac{tp_1 + tn_1}{n_1} - \frac{tp_2 + tn_2}{n_2} $$

((Verdaderos positivos para la porción 1 + Verdaderos negativos para la porción 1)/Cantidad total de instancias para la porción 1) - (Verdaderos positivos para la porción 2 + Verdaderos negativos para la porción 2)/Cantidad total de instancias para porción 2)

En nuestro conjunto de datos de ejemplo:

((50 predicciones correctas en California + 120 receptores previstos correctamente en California)/ 200 aplicadores de California previstos de forma correcta - (20 aceptaciones correctas de Florida + 50 rechazos de Florida correctamente)/100 aplicadores de Florida = 170/200 - 70/100 = 0.15

El valor positivo de la diferencia de precisión indica que el modelo es más preciso para los solicitantes de California que los de Florida. Esto podría indicar un sesgo posible que favorece a los solicitantes de California.

Diferencia en las proporciones positivas de las etiquetas previstas (DPPPL)

La diferencia en las proporciones positivas en las etiquetas predichas (DPPPL) mide si el modelo tiene una tendencia a hacer predicciones más desproporcionadamente positivas para una porción sobre la otra. DPPPL calcula la diferencia en las proporciones positivas de las etiquetas previstas, en las que las proporciones positivas en las etiquetas predictivas son (resultados positivos previstos/cantidad total de instancias) para una porción:

$$ \frac{tp_1 + fp_1}{n_1} - \frac{tp_2 + fp_2}{n_2} $$

((Verdaderos positivos para la porción 1 + Falsos positivos para la porción 1)/Cantidad total de instancias para la porción 1:/(Verdaderos positivos para la porción 2 + Falsos positivos para la porción 2)/Cantidad total de instancias para la porción 2

Para nuestro conjunto de datos de ejemplo:

((50 aceptaciones correctas de California + 20 aceptaciones de California previstas de forma incorrecta)/ 200 aplicadores de California que se predijeron de forma incorrecta - (20 aceptaciones de Florida previstas de forma correcta + 30 aceptantes de Florida previstos de forma incorrecta)/ 100 aplicadores de Florida = 70/200 - 50/100 = -0.15

El valor negativo de DPPPL indica que el modelo acepta de manera desproporcionada más solicitantes de Florida en comparación con los solicitantes de California.

Diferencia de recuperación

La diferencia de recuperación mide la diferencia en la recuperación entre la porción 1 y la porción 2, y observa solo los resultados positivos etiquetados. La diferencia de recuperación también se puede llamar Igual oportunidad.

$$ \frac{tp_1}{l^1_1} - \frac{tp_2}{l^1_2} $$

(Verdaderos positivos para la porción 1/(Verdaderos positivos para la porción 1) (Falsos positivos para la porción 1) (Falsos positivos para la porción 2) (Verdaderos positivos para la porción 2 + Falsos negativos para la porción 2)

En nuestro conjunto de datos de ejemplo:

(50 aceptaciones correctas de California previstas de forma correcta/(50 aceptaciones correctas de California y 10 rechazos de California previstas de forma incorrecta) - (20 aceptaciones de Florida previstas de forma correcta/(20 aceptaciones de Florida previstas de forma correcta + 0 reprobaciones de Florida rechazadas de forma incorrecta)) = 50/60 - 20/20 = -0.17

El valor negativo indica que el modelo es mejor para recuperar a los solicitantes de Florida que a los solicitantes de California. En otras palabras, el modelo tiende a ser más preciso en sus decisiones de aceptación para Florida y los solicitantes de California.

Diferencia de especificidad

La diferencia de especificidad mide la diferencia en la especificidad, también conocida como tasa de verdaderos negativos, entre la porción 1 y la porción 2. Podemos considerarlo como la diferencia de recuperación, pero para los resultados negativos etiquetados:

$$ \frac{tn_1}{l^0_1} - \frac{tn_2}{l^0_2} $$

(Verdaderos negativos para la porción 1/(Verdaderos negativos para la porción 1 + Falsos positivos para la porción 1) (Verdaderos negativos para la porción 2) (Verdaderos negativos para la porción 2 + Falsos positivos para la porción 2)

En nuestro conjunto de datos de ejemplo:

(120 rechazos de California predichos correctamente/120 rechazos de California correctos de forma incorrecta + 20 receptores previstos de California de forma incorrecta) - (50 rechazos de Florida previstos de forma correcta/(50 rechazos de Florida previstos de forma incorrecta + 30 receptores incorrectos de Florida previstos de forma incorrecta) = 120/140-50/80 = 0.23

El valor positivo indica que, para los rechazos de aplicaciones, el modelo tiene una mejor recuperación para los solicitantes de California en comparación con los solicitantes de Florida. En otras palabras, el modelo tiende a ser más correcto en sus decisiones de rechazo para los postulantes de California en comparación con los de Florida.

Diferencia en la proporción de los tipos de errores

La diferencia en la proporción de tipos de errores mide la diferencia en cómo se distribuyen los errores (falsos negativos y falsos positivos) entre la porción 1 y la 2. La proporción del tipo de error se calcula como (falsos negativos (error I de tipo)/falso positivo (error de tipo II). La diferencia en la proporción de tipos de error también se puede llamar Igualdad de tratamiento.

$$ \frac{fn_1}{fp_1} - \frac{fn_2}{fp_2} $$

(Falsos negativos para la porción 1/Falsos positivos para la porción 1) - (Falsos negativos para la porción 2/Falsos positivos para la porción 2)

En nuestro conjunto de datos de ejemplo:

(10 rechazos de California predichos de forma incorrecta/20 aceptaciones de California predichas de manera incorrecta) - (0 receptores de Florida previstos de forma incorrecta/30 aceptaciones de Florida predichas de manera incorrecta) = (10/20 - 0/30) = 0.5

Aunque el modelo comete 30 errores en los solicitantes de California y Florida, el valor positivo para la diferencia en la proporción de tipos de errores indica que el modelo tiende a predecir demasiado los resultados positivos (mayores falsos positivos) y, por lo tanto, predicen resultados negativos (errores falsos negativos más bajos) para los solicitantes de California, en comparación con los solicitantes de Florida.

El signo de la diferencia en la proporción de tipos de error se puede interpretar de la siguiente manera:

Valor positivo: indica que el modelo realiza errores de manera desproporcionada más falsos positivos que los errores negativos falsos para la porción 1.
Valor cero: indica que el modelo hace la misma cantidad de errores falsos positivos para ambas porciones.
Valor negativo: indica que el modelo realiza errores de manera desproporcionada más falsos positivos que los errores negativos falsos para la porción 2.

El signo de esta métrica no siempre indica sesgos en el modelo, ya que la efectividad de los falsos negativos o falsos positivos depende de la aplicación del modelo.

¿Qué sigue?

Lee la referencia del componente de canalización de evaluación del modelo.
Obtén más información sobre las métricas de equidad en Una encuesta sobre sesgo y equidad en el aprendizaje automático.