Metriche di differenziazione dei dati per Vertex AI

Questa pagina descrive le metriche di valutazione che puoi utilizzare per rilevare distinzioni dei dati, che possono apparire nei dati non elaborati e nei valori basati su dati empirici reali ancora prima dell'addestramento del modello. Per gli esempi e la notazione in questa pagina, utilizziamo un ipotetico set di dati per le applicazioni universitarie, descritto in dettaglio in Introduzione alla valutazione dell'equità del modello.

Per descrizioni delle metriche generate dai dati post-addestramento, consulta Metriche di bias del modello.

Panoramica

Nel nostro set di dati di applicazioni universitarie di esempio, abbiamo 200 candidati dalla California nella sezione 1 e 100 in Florida nella sezione 2, etichettati come segue:

Sezione Rifiuta Accetta
California 140 60
Florida 80 20

Generalmente, puoi interpretare il segno per la maggior parte delle metriche nel seguente modo:

  • Valore positivo: indica un potenziale bias che favorisce la sezione 1 rispetto alla sezione 2.

  • Valore zero: indica l'assenza di bias tra la sezione 1 e la sezione 2.

  • Valore negativo: indica un potenziale bias a favore della sezione 2 rispetto alla sezione 1.

Prendiamo nota dei casi in cui ciò non si applica a una metrica.

Differenza nella dimensione della popolazione

La differenza nelle dimensioni della popolazione misura se ci sono più esempi nella sezione 1 rispetto alla sezione 2, normalizzata per la popolazione totale delle due sezioni:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(popolazione totale della sezione 1 - popolazione totale della sezione 2) / (somma delle popolazioni nella sezione 1 e 2)

Nel nostro set di dati di esempio:

(200 richiedenti in California - 100 richiedenti in Florida)/ 300 richiedenti totali = 100/300 = 0,33.

Il valore positivo della differenza nelle dimensioni della popolazione indica che ci sono candidati in California in modo sproporzionato rispetto a quelli in Florida. Il valore positivo può indicare o meno un bias di per sé, ma quando un modello viene addestrato su questi dati, potrebbe imparare a funzionare meglio per i candidati della California.

Differenza di proporzioni positive nelle etichette reali (DPPTL)

La differenza di proporzioni positive nelle etichette reali misura se un set di dati ha etichette basate su dati empirici reali sproporzionatamente più positive per una sezione rispetto all'altra. Questa metrica calcola la differenza delle proporzioni positive in etichette reali tra la sezione 1 e la sezione 2, dove le proporzioni positive in etichette reali per una sezione sono (risultati positivi etichettati / dimensione totale della popolazione). Questa metrica è anche nota come Squilibrio etichetta:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Risultati positivi etichettati per la sezione 1/Dimensione totale della popolazione della sezione 1) - (Risultati positivi etichettati per la sezione 2/Dimensione totale della popolazione della sezione 2)

Nel nostro set di dati di esempio:

(60 richiedenti accettati in California/200 candidati in California) - (20 candidati accettati in Florida/100 candidati in Florida) = 60/200 - 20/100 = 0,1.

Il valore positivo del DPPTL indica che il set di dati ha risultati positivi sproporzionatamente più elevati per i candidati in California rispetto a quelli per la Florida. Il valore positivo può indicare o meno un bias da solo, ma quando un modello viene addestrato su questi dati, il modello potrebbe imparare a prevedere risultati sproporzionatamente più positivi per i candidati in California.

Passaggi successivi