Métricas de parcialidade dos dados para o Vertex AI

Esta página descreve as métricas de avaliação que pode usar para detetar tendências nos dados, que podem aparecer nos dados não processados e nos valores de verdade fundamental, mesmo antes de preparar o modelo. Para os exemplos e a notação nesta página, usamos um conjunto de dados hipotético de candidatura a uma universidade que descrevemos detalhadamente na Introdução à avaliação de modelos para equidade.

Para ver descrições das métricas geradas a partir de dados pós-preparação, consulte o artigo Métricas de parcialidade do modelo.

Vista geral

No nosso exemplo de conjunto de dados de candidaturas universitárias, temos 200 candidatos da Califórnia na fatia 1 e 100 candidatos da Florida na fatia 2, etiquetados da seguinte forma:

Dividir Rejeitar Aceitar
Califórnia 140 60
Florida 80 20

Geralmente, pode interpretar o sinal da maioria das métricas da seguinte forma:

  • Valor positivo: indica uma potencial parcialidade a favor da fatia 1 em relação à fatia 2.

  • Valor zero: indica que não existe parcialidade entre a fatia 1 e a fatia 2.

  • Valor negativo: indica uma potencial parcialidade a favor da fatia 2 em relação à fatia 1.

Indicamos quando isto não se aplica a uma métrica.

Diferença no tamanho da população

A diferença no tamanho da população mede se existem mais exemplos na fatia 1 em comparação com a fatia 2, normalizada pela população total das duas fatias:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(população total da fatia 1 - população total da fatia 2) / (soma das populações nas fatias 1 e 2)

No nosso conjunto de dados de exemplo:

(200 candidatos da Califórnia - 100 candidatos da Florida)/ 300 candidatos no total = 100/300 = 0,33.

O valor positivo da diferença no tamanho da população indica que existem candidatos da Califórnia desproporcionadamente mais do que candidatos da Florida. O valor positivo pode ou não indicar parcialidade por si só, mas quando um modelo é preparado com estes dados, o modelo pode aprender a ter um melhor desempenho para os candidatos da Califórnia.

Diferença nas proporções positivas nas etiquetas verdadeiras (DPPTL)

A Diferença nas proporções positivas nas etiquetas verdadeiras mede se um conjunto de dados tem desproporcionadamente mais etiquetas de verdade fundamental positivas para uma fatia do que para a outra. Esta métrica calcula a diferença nas proporções positivas nas etiquetas verdadeiras entre a fatia 1 e a fatia 2, em que as proporções positivas nas etiquetas verdadeiras para uma fatia são (resultados positivos etiquetados / tamanho total da população). Esta métrica também é conhecida como desequilíbrio de etiquetas:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Resultados positivos etiquetados para a fatia 1/Tamanho total da população da fatia 1) - (Resultados positivos etiquetados para a fatia 2/Tamanho total da população da fatia 2)

No nosso conjunto de dados de exemplo:

(60 candidatos da Califórnia aceites/200 candidatos da Califórnia) – (20 candidatos da Florida aceites/100 candidatos da Florida) = 60/200 – 20/100 = 0,1.

O valor positivo do DPPTL indica que o conjunto de dados tem resultados positivos desproporcionadamente mais elevados para os candidatos da Califórnia em comparação com os candidatos da Florida. O valor positivo pode ou não indicar parcialidade por si só, mas quando um modelo é preparado com estes dados, o modelo pode aprender a prever resultados desproporcionadamente mais positivos para os candidatos da Califórnia.

O que se segue?