Valuta l'equità del modello

È fondamentale valutare l'equità del modello per evitare bias e discriminazioni. Questa pagina si concentra sull'importanza della valutazione dell'equità nei modelli di punteggio del rischio AML, fornisce insight sull'applicazione dell'uguaglianza delle quote (come misura di esempio) e fornisce potenziali percorsi per le mitigazioni.

Pertinenza

Esistono diversi motivi per cui occorre valutare l'equità del modello, tra cui:

  • Creazione o amplificazione di pregiudizi e danni sociali negativi: un modello di equità è fondamentale per prevenire le discriminazioni nei confronti degli individui sulla base delle loro caratteristiche demografiche, come genere, gruppo etnico o età.
  • Conformità normativa: le banche devono rispettare gli standard legali ed etici, tra cui le leggi e le normative antidiscriminazione.
  • Mantenimento della fiducia: l'equità nei modelli di punteggio del rischio AML aiuta a mantenere la fiducia dei clienti e promuove una reputazione positiva per la banca.

Come calcolare l'equità del modello

Esistono diversi modi per valutare l'equità nel machine learning (consulta le best practice generali). Ti consigliamo di prendere in considerazione l'uguaglianza delle probabilità per valutare l'equità del modello. In questo contesto, l'uguaglianza delle probabilità misura se il modello fornisca parità di trattamento a parti di gruppi demografici diversi rispetto ai loro punteggi di rischio.

Per calcolare l'uguaglianza delle probabilità, procedi nel seguente modo:

  • Definisci i gruppi protetti per i quali vuoi verificare l'equità del modello:
    • La tua banca in genere adotta un modello di governance per le categorie protette. Queste possono includere genere, gruppo etnico, età in bucket e altre categorie.
    • Nella tabella Partito, i campi che consigliamo di utilizzare hanno una nota con il messaggio "In genere utilizzato anche per la valutazione dell'equità".
  • Per ogni categoria protetta, calcola le seguenti metriche:

    • Tasso di veri positivi (TPR): la proporzione di individui correttamente classificati come ad alto rischio tra coloro che sono veramente ad alto rischio in base ai punteggi di rischio assegnati dal modello.

      Il tasso di falsi negativi (FNR) è (1 - TPR). Questo è un altro modo per misurare la frequenza con cui un modello non raggiunge erroneamente il target per un determinato gruppo.

    • Tasso di falsi positivi (FPR): la proporzione di individui erroneamente classificati come ad alto rischio tra quelli che in realtà sono a basso rischio in base ai punteggi di rischio assegnati dal modello.

      Puoi utilizzare questo modello di script SQL per il calcolo, modificando in base alle esigenze specifiche dimensioni sensibili per le quali devi eseguire l'analisi dell'equità.

  • Confronta i valori TPR e FPR per diversi gruppi demografici.

Alcune considerazioni importanti nel calcolo di TPR e FPR includono quanto segue:

  • Specificare attentamente l'insieme completo di esempi per i quali verranno calcolati TPR e FPR; ad esempio, conteggiare tutte le parti in un singolo settore di attività una volta a una data specifica d.
  • Specifica con attenzione ciò che definisce un esempio positivo effettivo, ad esempio una parte per la quale qualsiasi avviso di qualsiasi sistema e indagine che inizia dopo la data d ha comportato l'attivazione del processo di uscita del cliente per motivi correlati all'AML.
  • Specifica attentamente cosa viene considerato come previsione positiva; ad esempio, tutti i clienti per i quali i punteggi di rischio di AML AI per la data d superano una soglia di punteggio di rischio scelta, che useresti per attivare gli avvisi.

Come interpretare i risultati e gli approcci di mitigazione

Una percentuale di falsi positivi più elevata per una sezione specifica o un gruppo demografico specifico indica che il modello ha maggiori probabilità di classificare erroneamente come ad alto rischio gli individui di quel gruppo, portando a indagini non necessarie. Ciò indica che i soggetti appartenenti a tale gruppo demografico vengono segnalati in modo sproporzionato agli accertamenti, con conseguenti maggiori accertamenti o inconvenienti per gli individui che potrebbero in realtà non rappresentare un rischio più elevato.

Una percentuale di veri positivi inferiore per una sezione o un gruppo demografico specifico indica che il modello è meno efficace nel classificare correttamente gli individui di quel gruppo come ad alto rischio, con un conseguente tasso di falsi negativi più elevato. Ciò indica che le persone di quel gruppo demografico che dovrebbero essere segnalate per le indagini hanno maggiori probabilità di essere ignorate o trascurate dal modello rispetto ad altri gruppi.

Le disparità nelle FPR e nelle TPR e le soglie su quando esaminarle ulteriormente dovrebbero essere considerate nel processo di governance del rischio del tuo modello. Se decidi che il rischio merita ulteriori indagini, ecco le possibili cause principali e attenuazioni da prendere in considerazione.

Potenziali cause principali

Il seguente elenco illustra le potenziali cause principali delle disparità nel tasso di falsi positivi e nel tasso di veri positivi tra i gruppi demografici:

  • Esempi positivi insufficienti: non hai catturato un numero sufficiente di clienti di questo tipo (il numero di indagini o avvisi positivi non è sufficiente). Potresti non avere effettuato indagini sufficienti oppure questo tipo di cliente non è molto rischioso.
  • Molti esempi positivi non correttamente giustificati: rilevi un bias difensivo del report sulle attività sospette o un bias di uscita del cliente nei confronti di un determinato gruppo di clienti.
  • Esempi totali insufficienti: non hai abbastanza clienti di questo tipo nella tua base clienti.

Anche altri aspetti della qualità dei dati e della generazione dei modelli possono influire sull'equità.

Opzioni di mitigazione

Il seguente elenco illustra le opzioni di mitigazione per le cause principali nella sezione precedente:

  • Valuta la possibilità di reindirizzare la capacità degli investigatori verso gruppi di clienti con un TPR più elevato e / o un FPR inferiore per riequilibrare questi valori in futuro
  • Esamina il processo di indagine e le indagini storiche per risultati di parte per le sezioni con significative disparità
  • Randomizza le indagini per ottenere esempi più positivi
  • Esamina i dati supplementari di una parte (vedi Dati supplementari). Valuta la possibilità di rimuovere i dati fortemente correlati a categorie sensibili e di aggiungere dati che esprimono il fattore di rischio sottostante (imparziale). Prendiamo ad esempio un caso in cui gli avvisi del modello sono concentrati in alcuni codici postali. Il fattore di rischio sottostante potrebbe essere la concentrazione di attività che consumano molta cassa piuttosto che l'area geografica stessa.

Non è consigliabile:

  • Rimuovi parti o eventi di casi di rischio per gruppi di clienti specifici per ribilanciare il FPR o il TPR (in effetti, sottocampionamento). A causa della natura in rete dei dati e delle funzionalità di AML AI, questo potrebbe avere un impatto imprevedibile sul comportamento e sulle prestazioni del modello.

Se ritieni comunque che la governance del rischio del modello sia bloccata per motivi di equità, ti consigliamo di continuare a utilizzare la versione attuale del tuo motore o il set di dati e contattare l'assistenza per ulteriori indicazioni.