Es fundamental evaluar la equidad del modelo para evitar perpetuar los sesgos y la discriminación. En esta página, se enfoca en la importancia de la evaluación de equidad en los modelos de puntuación de riesgo de la AML, proporciona estadísticas sobre la aplicación de la igualdad de oportunidades (como una medida de ejemplo) y brinda posibles rutas para las mitigaciones.
Relevancia
Existen varios motivos por los que se debe evaluar la equidad del modelo, incluidos los siguientes:
- Crear o amplificar sesgos y daños sociales negativos: La equidad de los modelos es fundamental para evitar la discriminación contra las personas en función de sus atributos demográficos, como el género, el origen étnico o la edad.
- Cumplimiento normativo: Los bancos deben cumplir con los estándares legales y éticos, incluidas las leyes y reglamentaciones contra la discriminación.
- Mantener la confianza: La equidad en los modelos de puntuación de riesgo de AML ayuda a mantener la confianza de los clientes y promueve una reputación positiva para el banco.
Cómo calcular la equidad del modelo
Existen varias formas de evaluar la equidad en el aprendizaje automático (consulta las prácticas recomendadas generales). Te recomendamos que consideres la igualdad de probabilidades para evaluar la equidad del modelo. En este contexto, la igualdad de probabilidades mide si el modelo brinda un trato igualitario a las partes de diferentes grupos demográficos en relación con sus puntuaciones de riesgo.
Para calcular la igualdad de probabilidades, haz lo siguiente:
- Define los grupos protegidos para los que deseas probar la equidad del modelo:
- Por lo general, tu banco tiene una gobernanza de modelos para las categorías protegidas. Estos pueden incluir el género, la raza, la edad agrupada y otras categorías.
- En la tabla Partido, los campos que recomendamos usar tienen una nota que dice "Por lo general, también se usan para la evaluación de equidad".
Para cada categoría protegida, calcula las siguientes métricas:
Tasa de verdaderos positivos (TPR): Es la proporción de personas clasificadas correctamente como de alto riesgo entre aquellas que realmente tienen un alto riesgo según las puntuaciones de riesgo que asignó el modelo.
La tasa de falsos negativos (FNR) es (1 - TPR). Esta es otra forma de medir la frecuencia con la que un modelo no alcanza el objetivo de un grupo determinado de forma incorrecta.
Tasa de falsos positivos (FPR): Es la proporción de personas clasificadas de forma incorrecta como de alto riesgo entre aquellas que, en realidad, tienen un riesgo bajo según las puntuaciones de riesgo que asignó el modelo.
Puedes usar esta plantilla de secuencia de comandos de SQL para el cálculo y ajustarla según sea necesario a las dimensiones sensibles específicas para las que necesitas realizar un análisis de equidad.
Compara los valores de TPR y FPR en diferentes grupos demográficos.
Entre las consideraciones importantes para calcular la TPR y la FPR, se incluyen las siguientes:
- Especifica cuidadosamente el conjunto completo de ejemplos para los que se calcularán la TPR y la FPR; por ejemplo, contar todas las partes de una sola línea de negocio una vez en una fecha específica d.
- Especifica cuidadosamente lo que define un ejemplo positivo real, por ejemplo, una parte para la que cualquier alerta de cualquier sistema y cualquier investigación que comience después de la fecha d haya provocado el inicio del proceso de salida del cliente por motivos relacionados con la AML.
- Especifica con cuidado lo que se considera una predicción positiva; por ejemplo, todos los clientes cuyas puntuaciones de riesgo de la IA de AML para la fecha d superan un umbral de puntuación de riesgo elegido, que usarías para activar alertas.
Cómo interpretar los resultados y los enfoques de mitigación
Un porcentaje más alto de falsos positivos para un segmento o grupo demográfico específico significa que es más probable que el modelo clasifique de forma incorrecta a las personas de ese grupo como de alto riesgo, lo que genera investigaciones innecesarias. Esto indica que las personas de ese grupo demográfico se marcan de manera desproporcionada para su investigación, lo que podría generar un mayor escrutinio o inconvenientes para las personas que, en realidad, podrían no representar un riesgo mayor.
Una tasa de verdaderos positivos más baja para un segmento o grupo demográfico específico significa que el modelo es menos eficaz para clasificar correctamente a las personas de ese grupo como de alto riesgo, lo que genera una mayor tasa de falsos negativos. Esto indica que es más probable que el modelo omita o pase por alto a las personas de ese grupo demográfico que deberían marcarse para su investigación en comparación con otros grupos.
En tu proceso de gobernanza de riesgos del modelo, debes considerar las disparidades en las FPR y las TPR, y los umbrales para investigarlas más a fondo. Si consideras que el riesgo merece una investigación más a fondo, las siguientes son posibles causas raíz y mitigaciones que debes tener en cuenta.
Posibles causas principales
En la siguiente lista, se describen las posibles causas raíz de las disparidades en la tasa de falsos positivos y la tasa de verdaderos positivos entre los grupos demográficos:
- Ejemplos positivos insuficientes: No capturaste suficientes clientes de este tipo (no hay suficientes investigaciones o alertas positivas). Es posible que no estés investigando lo suficiente o que este tipo de cliente no sea riesgoso con frecuencia.
- Muchos ejemplos positivos que no están justificados de forma adecuada: Detectas un sesgo defensivo de los informes de actividad sospechosa (SAR) o un sesgo de salida de los clientes hacia un grupo de clientes en particular.
- Ejemplos totales insuficientes: No tienes suficientes clientes de este tipo en tu base de clientes.
Otros aspectos de la calidad de los datos y la generación de modelos también pueden afectar la equidad.
Opciones de mitigación
En la siguiente lista, se describen las opciones de mitigación para las causas raíz de la sección anterior:
- Considera redireccionar la capacidad de los investigadores hacia grupos de clientes con una TPR más alta o una FPR más baja para reequilibrar estos valores en el futuro.
- Revisa el proceso de investigación y las investigaciones históricas para detectar resultados sesgados en segmentos con una disparidad significativa en la FPR o la TPR.
- Aleatoriza las investigaciones para obtener más ejemplos positivos
- Revisa los datos complementarios de tu partido (consulta Datos complementarios). Considera quitar los datos que se correlacionan mucho con categorías sensibles y agregar datos que expresen el factor de riesgo subyacente (no sesgado). Por ejemplo, considera un caso en el que las alertas del modelo se concentran en algunos códigos postales determinados. El factor de riesgo subyacente podría ser una concentración de empresas que requieren mucho efectivo en lugar de la zona geográfica en sí.
No se recomienda lo siguiente:
- Quita partes o eventos de casos de riesgo de grupos de clientes específicos para reajustar la FPR o la TPR (en efecto, un submuestreo). Debido a la naturaleza en red de los datos y las funciones de la IA de la AML, esto puede tener un impacto impredecible en el comportamiento y el rendimiento del modelo.
Si aún consideras que la gobernanza de riesgos del modelo está bloqueada por falta de equidad, te sugerimos que sigas usando la versión actual del motor o el conjunto de datos y que te comuniques con el equipo de asistencia para obtener más orientación.