Introdução à avaliação de modelos para equidade

Um fluxo de trabalho de aprendizagem automática pode incluir a avaliação da imparcialidade do seu modelo. Um modelo injusto apresenta um preconceito sistémico que pode causar danos, especialmente a grupos tradicionalmente sub-representados. Um modelo injusto pode ter um desempenho pior para determinados subconjuntos ou segmentos do conjunto de dados.

Pode detetar parcialidade durante o processo de recolha de dados ou avaliação pós-preparação. O Vertex AI fornece as seguintes métricas de avaliação de modelos para ajudar a avaliar o seu modelo quanto a parcialidade:

  • Métricas de parcialidade dos dados: antes de preparar e criar o modelo, estas métricas detetam se os dados não processados incluem parcialidades. Por exemplo, um conjunto de dados de deteção de sorrisos pode conter muito menos pessoas idosas do que pessoas mais jovens. Várias destas métricas baseiam-se na quantificação da distância entre a distribuição de etiquetas para diferentes grupos de dados:

    • Diferença no tamanho da população.

    • Diferença nas proporções positivas nas etiquetas verdadeiras.

  • Métricas de parcialidade do modelo: depois de preparar o modelo, estas métricas detetam se as previsões do modelo incluem parcialidades. Por exemplo, um modelo pode ser mais preciso para um subconjunto dos dados do que para o resto dos dados:

    • Diferença de precisão.

    • Diferença nas proporções positivas nas etiquetas previstas.

    • Diferença de recordação.

    • Diferença de especificidade.

    • Diferença na proporção de tipos de erros.

Para saber como incluir os componentes da pipeline de parcialidade da avaliação do modelo na execução da pipeline, consulte o componente de avaliação do modelo.

Vista geral do conjunto de dados de exemplo

Para todos os exemplos relacionados com métricas de equidade, usamos um conjunto de dados hipotético de admissão universitária com caraterísticas como as notas do ensino secundário de um candidato, o estado e a identidade de género. Queremos medir se a universidade tem uma parcialidade em relação aos candidatos da Califórnia ou da Florida.

As etiquetas de destino, ou todos os resultados possíveis, são:

  • Aceitar o candidato com bolsa de estudo (p).

  • Aceite o candidato sem bolsa (q)

  • Rejeite a pessoa candidata (r).

Podemos assumir que os especialistas em admissões forneceram estas etiquetas como a verdade absoluta. Tenha em atenção que é possível que até estas etiquetas de especialista sejam tendenciosas, uma vez que foram atribuídas por humanos.

Para criar um exemplo de classificação binária, podemos agrupar etiquetas para criar dois resultados possíveis:

  • Resultado positivo, indicado como 1. Podemos agrupar p e q no resultado positivo de "{p,q} aceite".

  • Resultado negativo, indicado como 0. Pode ser uma coleção de todos os outros resultados, exceto o resultado positivo. No nosso exemplo de candidatura à universidade, o resultado negativo é "rejeitada {r}".

Para medir a parcialidade entre os candidatos da Califórnia e da Florida, separamos duas fatias do resto do conjunto de dados:

  • A fatia 1 do conjunto de dados para o qual o desvio está a ser medido. No exemplo da candidatura à universidade, estamos a medir a parcialidade para os candidatos da Califórnia.

  • A fatia 2 do conjunto de dados em relação ao qual o desvio está a ser medido. A fatia 2 pode incluir "tudo o que não está na fatia 1" por predefinição, mas para o exemplo da candidatura à universidade, estamos a atribuir a fatia 2 como candidatos da Florida.

No nosso exemplo de conjunto de dados de candidaturas universitárias, temos 200 candidatos da Califórnia na fatia 1 e 100 candidatos da Florida na fatia 2. Após a formação do modelo, temos as seguintes matrizes de confusão:

Candidatos da Califórnia Aceitações (previstas) Rejeições (previstas)
Aceitações (facto observável) 50 (verdadeiros positivos) 10 (falsos negativos)
Rejeições (facto observável) 20 (falsos positivos) 120 (verdadeiros negativos)
Candidatos da Florida Aceitações (previstas) Rejeições (previstas)
Aceitações (facto observável) 20 (verdadeiros positivos) 0 (falsos negativos)
Rejeições (facto observável) 30 (falsos positivos) 50 (verdadeiros negativos)

Ao comparar as métricas entre as duas matrizes de confusão, podemos medir as parcialidades respondendo a perguntas como "o modelo tem uma melhor capacidade de memorização para uma fatia do que para a outra?"

Também usamos a seguinte abreviatura para representar dados de verdade fundamentada etiquetados, onde i representa o número da fatia (1 ou 2):

\( l^0_i = tn_i + fp_i \)
Para a fatia i, o número de resultados negativos etiquetados = verdadeiros negativos + falsos positivos.

\( l^1_i = fn_i + tp_i \)
Para a fatia i, o número de resultados positivos etiquetados = falsos negativos + verdadeiros positivos.

Tenha em atenção o seguinte acerca do exemplo do conjunto de dados de candidatura universitária:

  • Algumas métricas de equidade também podem ser generalizadas para vários resultados, mas usamos a classificação binária para simplificar.

  • O exemplo centra-se na tarefa de classificação, mas algumas métricas de equidade generalizam-se a outros problemas, como a regressão.

  • Para este exemplo, vamos assumir que os dados de preparação e os dados de teste são os mesmos.

O que se segue?