Metriche relative al bias dei dati per Vertex AI

Questa pagina descrive le metriche di valutazione che puoi utilizzare per rilevare i bias dei dati, che possono comparire nei dati non elaborati e nei valori basati su dati di fatto anche prima di addestrare il modello. Per gli esempi e la notazione in questa pagina, utilizziamo un set di dati ipotetico di domande di iscrizione all'università descritto in dettaglio in Introduzione alla valutazione del modello per l'equità.

Per le descrizioni delle metriche generate dai dati post-addestramento, consulta Metriche relative al bias del modello.

Panoramica

Nel nostro esempio di set di dati delle domande di ammissione al college, abbiamo 200 richiedenti dalla California nel primo segmento e 100 richiedenti dalla Florida nel secondo segmento, etichettati come segue:

Sezione Rifiuta Accetta
California 140 60
Florida 80 20

In genere, puoi interpretare il segno per la maggior parte delle metriche come segue:

  • Valore positivo: indica un potenziale bias che favorisce la frazione 1 rispetto alla frazione 2.

  • Valore zero: indica che non esiste alcuna differenza tra il livello 1 e il livello 2.

  • Valore negativo: indica un potenziale bias che favorisce il segmento 2 rispetto al segmento 1.

Applichiamo una nota quando questo non si applica a una metrica.

Differenza nelle dimensioni della popolazione

Differenza nella dimensione della popolazione misura se ci sono più esempi nell'intervallo 1 rispetto all'intervallo 2, normalizzati in base alla popolazione totale dei due intervalli:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(popolazione totale del segmento 1 - popolazione totale del segmento 2) / (somma delle popolazioni nei segmenti 1 e 2)

Nel nostro set di dati di esempio:

(200 richiedenti in California - 100 richiedenti in Florida)/ 300 richiedenti totali = 100/300 = 0,33.

Il valore positivo della differenza di dimensione della popolazione indica che esistono in modo sproporzionato più richiedenti in California rispetto alla Florida. Il valore positivo può o meno indicare un pregiudizio da solo, ma quando un modello viene addestrato su questi dati, potrebbe imparare a ottenere un rendimento migliore per i richiedenti in California.

Differenza nelle proporzioni positive nelle etichette vere (DPPTL)

L'indicatore Differenza nelle proporzioni positive nelle etichette vere misura se un set di dati ha proporzionalmente più etichette basate su dati empirici reali positive per un'estrazione rispetto all'altra. Questa metrica calcola la differenza tra le proporzioni positive nei valori veri tra il segmento 1 e il segmento 2, dove le proporzioni positive nei valori veri per un segmento sono (Risultati positivi etichettati / Dimensione totale della popolazione). Questa metrica è nota anche come sbilanciamento delle etichette:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Risultati positivi etichettati per il segmento 1/Dimensione totale della popolazione del segmento 1) - (Risultati positivi etichettati per il segmento 2/Dimensione totale della popolazione del segmento 2)

Nel nostro set di dati di esempio:

(60 candidati in California accettati/200 candidati in California) - (20 candidati in Florida accettati/100 candidati in Florida) = 60/200 - 20/100 = 0,1.

Il valore positivo del DPPTL indica che il set di dati ha risultati positivi sproporzionatamente più elevati per i richiedenti della California rispetto ai richiedenti della Florida. Il valore positivo può o meno indicare un bias, ma quando un modello viene addestrato su questi dati, potrebbe imparare a predire risultati sproporzionatamente più positivi per i richiedenti in California.

Passaggi successivi