Un flujo de trabajo de aprendizaje automático puede incluir la evaluación de tu modelo para determinar si es equitativo. Un modelo injusto muestra un sesgo sistémico que puede causar daños, en especial a los grupos tradicionalmente subrepresentados. Un modelo no equitativo puede tener un rendimiento inferior en ciertos subconjuntos o porciones del conjunto de datos.
Puedes detectar sesgos durante el proceso de recopilación de datos o de evaluación después del entrenamiento. Vertex AI proporciona las siguientes métricas de evaluación de modelos para ayudarte a evaluar si tu modelo tiene sesgos:
Métricas de sesgo de datos: Antes de entrenar y compilar tu modelo, estas métricas detectan si tus datos sin procesar incluyen sesgos. Por ejemplo, un conjunto de datos de detección de sonrisas puede contener muchas menos personas mayores que personas más jóvenes. Varias de estas métricas se basan en cuantificar la distancia entre la distribución de etiquetas para diferentes grupos de datos:
Diferencia en el tamaño de la población
Diferencia en proporciones positivas en etiquetas verdaderas.
Métricas de sesgo del modelo: Después de entrenar tu modelo, estas métricas detectan si las predicciones de tu modelo incluyen sesgos. Por ejemplo, un modelo puede ser más preciso para un subconjunto de los datos que para el resto de los datos:
Diferencia de precisión
Diferencia en proporciones positivas en etiquetas previstas.
Diferencia de recuperación
Diferencia de especificidad.
Diferencia en la proporción de tipos de errores.
Para obtener información sobre cómo incluir los componentes de la canalización de sesgo de evaluación del modelo en tu ejecución de canalización, consulta Componente de evaluación del modelo.
Descripción general del ejemplo de conjunto de datos
En todos los ejemplos relacionados con las métricas de equidad, usamos un conjunto de datos hipotético de admisión a la universidad con atributos como las calificaciones de la escuela secundaria, el estado y la identidad de género de un solicitante. Queremos medir si la universidad tiene sesgos hacia los postulantes de California o Florida.
Las etiquetas de destino, o todos los resultados posibles, son los siguientes:
Acepta al solicitante con una beca (
p
).Aceptar al postulante sin una beca (
q
)Rechaza al solicitante (
r
).
Podemos suponer que los expertos en admisión proporcionaron estas etiquetas como la verdad fundamental. Ten en cuenta que incluso estas etiquetas de expertos pueden estar sesgadas, ya que las asignaron personas.
Para crear un ejemplo de clasificación binaria, podemos agrupar etiquetas para crear dos resultados posibles:
Resultado positivo, indicado como
1
. Podemos agruparp
yq
en el resultado positivo de “{p,q}
aceptado”.Resultado negativo, que se indica como
0
. Puede ser una recopilación de todos los demás resultados, además del resultado positivo. En nuestro ejemplo de postulación a la universidad, el resultado negativo es “rechazado{r}
”.
Para medir el sesgo entre los postulantes de California y Florida, separamos dos fragmentos del resto del conjunto de datos:
Porción 1 del conjunto de datos para el que se mide el sesgo. En el ejemplo de la solicitud de ingreso a la universidad, medimos el sesgo de los postulantes de California.
Es el corte 2 del conjunto de datos en el que se mide el sesgo. La porción 2 puede incluir "todo lo que no está en la porción 1" de forma predeterminada, pero para el ejemplo de solicitud de ingreso a la universidad, asignamos la porción 2 como solicitantes de Florida.
En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 empleados de Florida en la porción 2. Después de entrenar el modelo, tenemos las siguientes matrices de confusión:
Solicitantes de California | Aceptaciones (previstas) | Rechazos (previstos) |
---|---|---|
Aceptaciones (verdad fundamental) | 50 (verdaderos positivos) | 10 (falsos negativos) |
Rechazos (verdad fundamental) | 20 (falsos positivos) | 120 (verdaderos negativos) |
Solicitantes de Florida | Aceptaciones (previstas) | Rechazos (previstos) |
---|---|---|
Aceptaciones (verdad fundamental) | 20 (verdaderos positivos) | 0 (falsos negativos) |
Rechazos (verdad fundamental) | 30 (falsos positivos) | 50 (verdaderos negativos) |
Cuando comparamos las métricas entre las dos matrices de confusión, podemos medir los sesgos respondiendo preguntas como "¿el modelo tiene una mejor recuperación para una porción que para la otra?".
También usamos la siguiente abreviatura para representar datos de verdad fundamental etiquetados,
en los que i
representa el número de fragmento (1 o 2):
i
, la cantidad de resultados positivos etiquetados = falsos negativos + verdaderos positivos.
Ten en cuenta lo siguiente sobre el ejemplo de conjunto de datos de solicitudes de ingreso a la universidad:
Algunas métricas de equidad también se pueden generalizar para varios resultados, pero, por motivos de simplicidad, usamos la clasificación binaria.
El ejemplo se enfoca en la tarea de clasificación, pero algunas métricas de equidad se generalizan a otros problemas, como la regresión.
En este ejemplo, suponemos que los datos de entrenamiento y los de prueba son los mismos.
¿Qué sigue?
Obtén información sobre las métricas de sesgo de datos que admite Vertex AI.
Obtén información sobre las métricas de sesgo del modelo que admite Vertex AI.
Lee la referencia del componente de canalización de evaluación de modelos.