Esta página descreve as métricas de avaliação do modelo que pode usar para detetar tendências do modelo, que podem aparecer na saída de previsão do modelo após a preparação do mesmo. Para os exemplos e a notação nesta página, usamos um conjunto de dados hipotético de candidatura a uma universidade que descrevemos detalhadamente na Introdução à avaliação de modelos para equidade.
Para ver descrições das métricas geradas a partir de dados de pré-preparação, consulte o artigo Métricas de tendências nos dados.
Vista geral
No nosso exemplo de conjunto de dados de candidaturas universitárias, temos 200 candidatos da Califórnia na fatia 1 e 100 candidatos da Florida na fatia 2. Após a formação do modelo, temos as seguintes matrizes de confusão:
Candidatos da Califórnia | Aceitações (previstas) | Rejeições (previstas) |
---|---|---|
Aceitações (facto observável) | 50 (verdadeiro positivo) | 10 (falso negativo) |
Rejeições (facto observável) | 20 (falso positivo) | 120 (verdadeiro negativo) |
Candidatos da Florida | Aceitações (previstas) | Rejeições (previstas) |
---|---|---|
Aceitações (facto observável) | 20 (verdadeiro positivo) | 0 (falso negativo) |
Rejeições (facto observável) | 30 (falso positivo) | 50 (verdadeiro negativo) |
Geralmente, pode interpretar o sinal da maioria das métricas da seguinte forma:
Valor positivo: indica uma potencial parcialidade a favor da fatia 1 em relação à fatia 2.
Valor zero: indica que não existe parcialidade entre a fatia 1 e a fatia 2.
Valor negativo: indica uma potencial parcialidade a favor da fatia 2 em relação à fatia 1.
Indicamos quando isto não se aplica a uma métrica.
Diferença de precisão
A diferença de precisão mede a diferença na precisão entre a fatia 1 e a fatia 2:
((Verdadeiros positivos para a fatia 1 + Verdadeiros negativos para a fatia 1)/Número total de instâncias para a fatia 1) - ((Verdadeiros positivos para a fatia 2 + Verdadeiros negativos para a fatia 2)/Número total de instâncias para a fatia 2)
No nosso conjunto de dados de exemplo:
((50 aceitações da Califórnia previstas corretamente + 120 rejeições da Califórnia previstas corretamente)/ 200 candidatos da Califórnia) - ((20 aceitações da Florida previstas corretamente + 50 rejeições da Florida previstas corretamente)/ 100 candidatos da Florida) = 170/200 - 70/100 = 0,15
O valor positivo da diferença de precisão indica que o modelo é mais preciso para os candidatos da Califórnia do que para os candidatos da Florida. Isto pode indicar uma potencial parcialidade a favor dos candidatos da Califórnia.
Diferença nas proporções positivas nas etiquetas previstas (DPPPL)
A diferença nas proporções positivas nas etiquetas previstas (DPPPL) mede se o modelo tem tendência a fazer previsões desproporcionadamente mais positivas para uma fatia em relação à outra. O DPPPL calcula a diferença nas proporções positivas nas etiquetas previstas, em que as proporções positivas nas etiquetas previstas são (resultados positivos previstos/número total de instâncias) para uma fatia:
((Verdadeiros positivos para a fatia 1 + Falsos positivos para a fatia 1)/Número total de instâncias para a fatia 1) - ((Verdadeiros positivos para a fatia 2 + Falsos positivos para a fatia 2)/Número total de instâncias para a fatia 2)
Para o nosso conjunto de dados de exemplo:
((50 aceitações na Califórnia previstas corretamente + 20 aceitações na Califórnia previstas incorretamente)/ 200 candidatos da Califórnia) - ((20 aceitações na Florida previstas corretamente + 30 aceitações na Florida previstas incorretamente)/ 100 candidatos da Florida) = 70/200 - 50/100 = -0,15
O valor negativo do DPPPL indica que o modelo aceita desproporcionadamente mais candidatos da Florida em comparação com os candidatos da Califórnia.
Diferença de recordação
A diferença de memorização mede a diferença na memorização entre a fatia 1 e a fatia 2, analisando apenas os resultados positivos etiquetados. A diferença de recordação também pode ser denominada Igualdade de oportunidades.
(Verdadeiros positivos para a fatia 1/(Verdadeiros positivos para a fatia 1 + Falsos negativos para a fatia 1)) - (Verdadeiros positivos para a fatia 2/(Verdadeiros positivos para a fatia 2 + Falsos negativos para a fatia 2))
No nosso conjunto de dados de exemplo:
(50 aceitações na Califórnia previstas corretamente/(50 aceitações na Califórnia previstas corretamente + 10 rejeições na Califórnia previstas incorretamente)) - (20 aceitações na Florida previstas corretamente/(20 aceitações na Florida previstas corretamente + 0 rejeições na Florida previstas incorretamente)) = 50/60 - 20/20 = -0,17
O valor negativo indica que o modelo é melhor a recordar candidatos da Florida do que candidatos da Califórnia. Por outras palavras, o modelo tende a ser mais preciso nas suas decisões de aceitação para candidatos da Florida em comparação com os da Califórnia.
Diferença de especificidade
A diferença de especificidade mede a diferença na especificidade, também conhecida como a taxa de verdadeiros negativos, entre a fatia 1 e a fatia 2. Podemos considerá-lo como a diferença de recordação, mas para resultados negativos etiquetados:
(Verdadeiros negativos para a fatia 1/(Verdadeiros negativos para a fatia 1 + Falsos positivos para a fatia 1)) - (Verdadeiros negativos para a fatia 2/(Verdadeiros negativos para a fatia 2 + Falsos positivos para a fatia 2))
No nosso conjunto de dados de exemplo:
(120 rejeições da Califórnia previstas corretamente/(120 rejeições da Califórnia previstas corretamente + 20 aceitações da Califórnia previstas incorretamente)) - (50 rejeições da Florida previstas corretamente/(50 rejeições da Florida previstas corretamente + 30 aceitações da Florida previstas incorretamente)) = 120/140 - 50/80 = 0,23
O valor positivo indica que, para as rejeições de candidaturas, o modelo tem uma melhor capacidade de memorização para os candidatos da Califórnia em comparação com os candidatos da Florida. Por outras palavras, o modelo tende a ser mais correto nas suas decisões de rejeição para candidatos da Califórnia em comparação com os da Florida.
Diferença na proporção de tipos de erros
A diferença na proporção de tipos de erros mede a diferença na forma como os erros (negativos falsos e positivos falsos) são distribuídos entre as divisões 1 e 2. A proporção do tipo de erro é calculada como (falsos negativos [erro do tipo I]/falsos positivos [erro do tipo II]). A diferença na proporção de tipos de erros também pode ser denominada Igualdade de tratamento.
(Falsos negativos para a fatia 1/Falsos positivos para a fatia 1) - (Falsos negativos para a fatia 2/Falsos positivos para a fatia 2)
No nosso conjunto de dados de exemplo:
(10 rejeições da Califórnia previstas incorretamente/20 aprovações da Califórnia previstas incorretamente) - (0 rejeições da Florida previstas incorretamente/30 aprovações da Florida previstas incorretamente) = (10/20 - 0/30) = 0,5
Embora o modelo cometa 30 erros para os candidatos da Califórnia e da Florida, o valor positivo para a diferença na proporção de tipos de erros indica que o modelo tende a prever em excesso resultados positivos (falsos positivos mais elevados) e, por conseguinte, a prever em falta resultados negativos (falsos negativos mais baixos) para os candidatos da Califórnia, em comparação com os candidatos da Florida.
O sinal da diferença na proporção de tipos de erros pode ser geralmente interpretado da seguinte forma:
Valor positivo: indica que o modelo comete erros falsos positivos de forma desproporcionada em relação aos erros falsos negativos para a fatia 1.
Valor zero: indica que o modelo comete a mesma quantidade de erros de falsos positivos para ambos os segmentos.
Valor negativo: indica que o modelo comete erros positivos falsos desproporcionais em comparação com erros negativos falsos para o grupo 2.
O sinal desta métrica não indica necessariamente parcialidade no modelo, porque a nocividade dos falsos negativos ou dos falsos positivos depende da aplicação do seu modelo.
O que se segue?
Leia a referência do componente da pipeline de avaliação de modelos.
Leia mais sobre as métricas de equidade em A Survey on Bias and Fairness in Machine Learning.