Il est essentiel d'évaluer l'équité d'un modèle pour éviter de perpétuer les biais et la discrimination. Cette page se concentre sur l'importance de l'évaluation de l'équité dans les modèles d'évaluation des risques AML, fournit des informations sur l'application de l'égalité des cotes (comme un exemple de mesure) et fournit des moyens potentiels d'atténuer les risques.
Pertinence
L'équité d'un modèle doit être évaluée pour plusieurs raisons, parmi lesquelles:
- Créer ou amplifier des biais et préjudices sociétaux négatifs
- Conformité réglementaire: les banques doivent respecter des normes légales et éthiques, y compris les lois et règlements anti-discrimination.
- Préserver la confiance: l'équité dans les modèles d'évaluation des risques AML contribue à préserver la confiance des clients et à entretenir une réputation positive pour la banque.
Calculer l'équité d'un modèle
Il existe plusieurs façons d'évaluer l'équité dans le machine learning (consultez les bonnes pratiques générales). Nous vous recommandons de tenir compte de l'égalité de probabilité pour évaluer l'équité du modèle. Dans ce contexte, l'égalité de probabilité mesure si le modèle offre un traitement équitable aux parties de différents groupes démographiques en fonction de leurs scores de risque.
Pour calculer l'égalité de probabilités, procédez comme suit:
- Définissez les groupes protégés pour lesquels vous souhaitez tester l'équité du modèle :
- Votre banque a généralement mis en place la gouvernance des modèles pour les catégories protégées. Il peut s'agir du genre, de l'origine ethnique, de l'âge inclus dans le bucket et d'autres catégories.
- Dans le tableau Party, les champs que nous vous recommandons d'utiliser comportent la mention "Généralement également utilisé pour l'évaluation de l'équité".
Pour chaque catégorie protégée, calculez les métriques suivantes:
Taux de vrais positifs (TVP): proportion d'individus correctement classés comme à risque élevé parmi ceux qui présentent un risque vraiment élevé d'après les scores de risque attribués par le modèle.
Le taux de faux négatifs (FNR) est égal à (1 - TVP). Il s'agit d'une autre façon de mesurer la fréquence à laquelle un modèle manque à tort la cible d'un groupe donné.
Taux de faux positifs (TFP): proportion d'individus classés à tort comme étant à risque élevé parmi ceux qui présentent un risque faible d'après les scores de risque attribués par le modèle.
Vous pouvez utiliser ce modèle de script SQL pour le calcul, en l'ajustant si nécessaire aux dimensions sensibles particulières pour lesquelles vous devez effectuer une analyse d'équité.
En comparant les valeurs TVP et TFP dans différents groupes démographiques
Voici quelques points importants à prendre en compte pour calculer les valeurs TPR et FPR:
- Spécifiez soigneusement l'ensemble complet d'exemples pour lesquels les valeurs TVP et TFP seront calculées (par exemple, en comptant toutes les parties dans une même activité une seule fois, à une date spécifique d).
- Spécifiez soigneusement ce qui définit un exemple positif réel ; par exemple, une partie pour laquelle une alerte d'un système ou une enquête débutant après la date d a déclenché le processus de sortie du client pour des raisons liées à la lutte contre le blanchiment d'argent (AML).
- Spécifiez soigneusement ce qui est considéré comme une prédiction positive. Par exemple, tous les clients pour lesquels les scores de risque de l'AML basée sur l'IA pour la date d dépassent un seuil de score de risque choisi, qui permet de déclencher des alertes.
Interpréter les résultats et les approches d'atténuation
Un taux de faux positifs plus élevé pour une tranche ou un groupe démographique spécifique signifie que le modèle est plus susceptible de classer à tort des individus de ce groupe comme présentant un risque élevé, ce qui conduit à des enquêtes inutiles. Cela indique que des individus appartenant à ce groupe démographique font l'objet d'un signalement disproportionné à des fins d'enquête, ce qui pourrait entraîner une surveillance accrue des individus qui ne présentent pas de risque plus élevé, ou leur inconvénient.
Un taux de vrais positifs inférieurs pour une tranche ou un groupe démographique spécifique signifie que le modèle est moins efficace pour classer correctement les individus de ce groupe comme étant à risque élevé, ce qui génère un taux de faux négatifs plus élevé. Cela indique que les individus de ce groupe démographique qui doivent être signalés pour examen sont plus susceptibles d'être manqués ou négligés par le modèle que les autres groupes.
Dans votre processus modèle de gouvernance des risques, vous devez tenir compte des disparités entre les valeurs TFP et TPR, ainsi que les seuils permettant de déterminer quand approfondir ces investigations. Lorsque vous décidez que le risque mérite un examen plus approfondi, voici les causes possibles et les stratégies d'atténuation à prendre en compte.
Causes possibles
La liste suivante décrit les causes possibles des disparités entre le taux de faux positifs et le taux de vrais positifs entre les groupes démographiques:
- Exemples positifs insuffisants: vous n'avez pas suffisamment capturé ce type de client (pas assez d'enquêtes positives ou d'alertes). Il se peut que l'enquête ne soit pas suffisante ou que ce type de client ne présente pas de risques très souvent.
- De nombreux exemples positifs qui ne sont pas correctement justifiés: vous détectez un biais défensif du rapport d'activité suspecte (DAS) ou un biais de sortie client vers un groupe de clients particulier.
- Nombre total d'exemples insuffisant: vous n'avez pas assez de clients de ce type dans votre base de clients.
D'autres aspects de la qualité des données et de la génération de modèles peuvent également avoir un impact sur l'impartialité.
Options d'atténuation
La liste suivante décrit les options d'atténuation des causes fondamentales dans la section précédente:
- Envisagez de rediriger la capacité des enquêteurs vers des groupes de clients ayant un TPR plus élevé et / ou un TFP plus bas afin de rééquilibrer ces valeurs à l'avenir.
- Examinez le processus d'investigation et l'historique des enquêtes afin de détecter les résultats biaisés pour les tranches présentant des disparités importantes au niveau du TVP ou du TVP
- Randomiser les enquêtes pour obtenir plus d'exemples positifs
- Examinez les données supplémentaires de votre partie (voir Données supplémentaires). Envisagez de supprimer les données qui sont fortement corrélées aux catégories sensibles et d'ajouter des données qui expriment le facteur de risque sous-jacent (impartial). Prenons l'exemple d'un modèle où les alertes du modèle sont concentrées dans certains codes postaux. Le facteur de risque sous-jacent pourrait être une concentration d'entreprises qui génèrent beaucoup de trésorerie dans cette zone plutôt que la zone géographique elle-même.
Les pratiques suivantes sont déconseillées:
- Supprimez des parties ou des événements de cas de risque pour des groupes de clients spécifiques afin de rééquilibrer le TFP ou le TPR (en vigueur, sous-échantillonnage). En raison de la nature en réseau des données et des caractéristiques de l'AML basée sur l'IA, cela peut avoir un impact imprévisible sur le comportement et les performances des modèles.
Si vous constatez toujours que la gouvernance des risques des modèles est bloquée pour des raisons d'équité, nous vous suggérons de continuer à utiliser la version de moteur ou l'ensemble de données actuellement utilisés et de contacter l'assistance pour obtenir des conseils supplémentaires.