Un flusso di lavoro di machine learning può includere la valutazione dell'equità del modello. Un modello iniquo mostra un bias sistemico che può causare danni, soprattutto a gruppi tradizionalmente sottorappresentati. Un modello ingiusto potrebbe avere un rendimento peggiore per determinati sottoinsiemi o sezioni del set di dati.
Puoi rilevare i bias durante la raccolta dei dati o la valutazione post-addestramento. Vertex AI fornisce le seguenti metriche di valutazione del modello per aiutarti a valutare il modello per il bias:
Metriche di distorsione dei dati: prima di addestrare e creare il modello, queste metriche rilevano se i dati non elaborati includono distorsioni. Ad esempio, un set di dati per il rilevamento del sorriso potrebbe contenere molte meno persone anziane rispetto a quelle più giovani. Molte di queste metriche si basano sulla quantificazione della distanza tra la distribuzione delle etichette per diversi gruppi di dati:
Differenza nella dimensione della popolazione.
Differenza nelle proporzioni positive nelle etichette reali.
Metriche di distorsione del modello: dopo aver addestrato il modello, queste metriche rilevano se le previsioni del modello includono distorsioni. Ad esempio, un modello potrebbe essere più preciso per un sottoinsieme dei dati rispetto al resto:
Differenza di precisione.
Differenza nelle proporzioni positive nelle etichette previste.
Differenza di richiamo.
Differenza di specificità.
Differenza nel rapporto tra i tipi di errori.
Per scoprire come includere i componenti della pipeline di valutazione del bias del modello nell'esecuzione della pipeline, consulta Componente di valutazione del modello.
Panoramica del set di dati di esempio
Per tutti gli esempi relativi alle metriche di equità, utilizziamo un set di dati ipotetico di ammissione al college con caratteristiche quali i voti del liceo, lo stato e l'identità di genere di un candidato. Vogliamo misurare se il college ha pregiudizi nei confronti dei candidati della California o della Florida.
Le etichette target, o tutti i possibili risultati, sono:
Accetta il candidato con borsa di studio (
p
).Accetta il candidato senza borsa di studio (
q
)Rifiuta il richiedente (
r
).
Possiamo presumere che gli esperti di ammissione abbiano fornito queste etichette come verità di riferimento. Tieni presente che anche queste etichette di esperti possono essere distorte, in quanto sono state assegnate da persone.
Per creare un esempio di classificazione binaria, possiamo raggruppare le etichette per creare due possibili risultati:
Risultato positivo, indicato come
1
. Possiamo raggrupparep
eq
nel risultato positivo di "{p,q}
accettato".Risultato negativo, indicato come
0
. Può trattarsi di una raccolta di tutti gli altri risultati diversi da quello positivo. Nell'esempio della domanda di ammissione all'università, il risultato negativo è "rifiutata{r}
".
Per misurare il bias tra i candidati della California e della Florida, separiamo due sezioni dal resto del set di dati:
La prima sezione del set di dati per cui viene misurato il bias. Nell'esempio della domanda di ammissione all'università, misuriamo il bias per i candidati della California.
La seconda sezione del set di dati rispetto alla quale viene misurato il bias. La sezione 2 può includere "tutto ciò che non è nella sezione 1" per impostazione predefinita, ma per l'esempio di domanda di ammissione all'università, assegniamo la sezione 2 ai candidati della Florida.
Nel nostro set di dati di esempio per le domande di ammissione all'università, abbiamo 200 candidati provenienti dalla California nella sezione 1 e 100 candidati della Florida nella sezione 2. Dopo l'addestramento del modello, abbiamo le seguenti matrici di confusione:
Candidati in California | Accettazioni (previste) | Rifiuti (previsti) |
---|---|---|
Accettazioni (dati di fatto) | 50 (veri positivi) | 10 (falsi negativi) |
Rifiuti (dati di fatto) | 20 (falsi positivi) | 120 (veri negativi) |
Candidati della Florida | Accettazioni (previste) | Rifiuti (previsti) |
---|---|---|
Accettazioni (dati di fatto) | 20 (veri positivi) | 0 (falsi negativi) |
Rifiuti (dati di fatto) | 30 (falsi positivi) | 50 (veri negativi) |
Confrontando le metriche tra le due matrici di confusione, possiamo misurare i bias rispondendo a domande come "il modello ha un richiamo migliore per una sezione rispetto all'altra?".
Utilizziamo anche la seguente abbreviazione per rappresentare i dati di riferimento etichettati,
dove i
rappresenta il numero della sezione (1 o 2):
i
, il numero di risultati positivi etichettati è uguale a falsi negativi + veri positivi.
Tieni presente quanto segue in merito all'esempio di set di dati per le domande di ammissione all'università:
Alcune metriche di equità possono essere generalizzate anche per più risultati, ma per semplicità utilizziamo la classificazione binaria.
L'esempio si concentra sull'attività di classificazione, ma alcune metriche di equità possono essere generalizzate ad altri problemi come la regressione.
Per questo esempio, supponiamo che i dati di addestramento e i dati di test siano gli stessi.
Passaggi successivi
Scopri di più sulle metriche del bias dei dati supportate da Vertex AI.
Scopri di più sulle metriche di distorsione del modello supportate da Vertex AI.
Leggi il riferimento al componente della pipeline di valutazione del modello.