Esta página foi traduzida pela API Cloud Translation.

Conferir e interpretar os resultados da avaliação

Nesta página, descrevemos como conferir e interpretar os resultados da avaliação do modelo depois de realizá-la.

Visualizar os resultados da avaliação

Depois de definir a tarefa de avaliação, execute-a para receber os resultados da avaliação conforme a seguir:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

A classe EvalResult representa o resultado de uma execução de avaliação com os seguintes atributos:

metrics_table: os resultados por instância.
summary_metrics: os resultados agregados de todas as instâncias para todas as métricas solicitadas.
metadata: o nome do experimento e da execução do experimento para a execução da avaliação.

A classe EvalResult é definida da seguinte maneira:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Com o uso de funções auxiliares, os resultados da avaliação podem ser exibidos no bloco do Colab da seguinte forma:

Tabelas para métricas resumidas e baseadas em linhas

Exibir os resultados da avaliação

É possível representar as métricas de resumo em um gráfico de barras ou radar para visualização e comparação entre os resultados de diferentes execuções de avaliação. Essa visualização pode ser útil para avaliar diferentes modelos e diferentes modelos de comandos.

No exemplo a seguir, são exibidas quatro métricas (coerência, fluência, instruções seguidas e qualidade geral do texto) para as respostas geradas usando quatro modelos de comandos diferentes. Com base nos gráficos de radar e de barras, é possível inferir que o modelo de comando n° 2 supera consistentemente os outros modelos nas quatro métricas. Isso fica evidente nas notas significativamente mais altas relacionadas a instruções seguidas e qualidade do texto. Com base nessa análise, o modelo de comando n° 2 parece ser a escolha mais eficaz entre as quatro opções.

Gráfico de radar mostrando as pontuações de coherence, instruction_following, text_quality e fluency para todos os modelos de comandos

Gráfico de barras mostrando a média de coherence, instruction_following, text_quality e fluency em todos os modelos de comandos

Entenda os resultados da métrica

As seguintes tabelas listam vários componentes de resultados agregados e de nível de instância incluídos em metrics_table e em summary_metrics, respectivamente, para as métricas PointwiseMetric, PairwiseMetric e baseadas em computação:

`PointwiseMetric`

Resultados no nível da instância

Coluna	Descrição
resposta	A resposta gerada para o comando pelo modelo.
pontuação	A classificação dada à resposta de acordo com os critérios e a rubrica de classificação. A pontuação pode ser binária (0 e 1), em escala Likert (1 a 5 ou -2 a 2) ou em ponto flutuante (0,0 a 1,0).
explicação	O motivo da pontuação do modelo juiz. Usamos o raciocínio baseado em cadeia de pensamento para orientar o modelo juiz a explicar a lógica por trás de cada veredito. Foi comprovado que forçar o modelo juiz a raciocinar melhora a precisão da avaliação.

Resultados agregados

Coluna	Descrição
pontuação média	Pontuação média de todas as instâncias.
desvio padrão	O desvio padrão para todas as pontuações.

`PairwiseMetric`

Resultados no nível da instância

Coluna	Descrição
resposta	A resposta gerada para o comando pelo modelo candidato.
baseline_model_response	A resposta gerada para o comando pelo modelo de referência.
pairwise_choice	O modelo com a melhor resposta. Os valores possíveis são CANDIDATE, BASELINE ou TIE.
explicação	O motivo da escolha pelo modelo juiz.

Resultados agregados

Coluna	Descrição
candidate_model_win_rate	Proporção de tempo em que o modelo juiz decidiu que o modelo candidato tinha a melhor resposta em relação ao total de respostas. Varia de 0 a 1.
baseline_model_win_rate	Proporção de tempo em que o modelo juiz decidiu que o modelo de referência tinha a melhor resposta em relação ao total de respostas. Varia de 0 a 1.

Métricas com base em computação

Resultados no nível da instância

Coluna	Descrição
resposta	A resposta do modelo que está sendo avaliada.
referência	A resposta de referência.
pontuação	A pontuação é calculada para cada par de respostas e referências.

Resultados agregados

Coluna	Descrição
pontuação média	Pontuação média de todas as instâncias.
desvio padrão	O desvio padrão para todas as pontuações.

Exemplos

Os exemplos desta seção demonstram como ler e entender os resultados da avaliação.

Exemplo 1

No primeiro exemplo, considere avaliar uma instância de avaliação por ponto para TEXT_QUALITY. A pontuação da avaliação por ponto da métrica TEXT_QUALITY é 4 (em uma escala de 1 a 5), o que significa que a resposta é boa. Além disso, a explicação do resultado da avaliação mostra por que o modelo juiz acredita que a previsão merece a pontuação 4 e não uma pontuação maior ou menor.

Conjunto de dados

prompt: "Resuma o texto a seguir de uma forma que crianças de cinco anos entendam: uma plataforma de mídia social enfrenta reação negativa sobre políticas de moderação de conteúdo\nUma plataforma de mídia social conhecida se envolve em controvérsias com usuários e criadores de conteúdo, que expressam descontentamento em relação às políticas de moderação de conteúdo. Alegações de censura tendenciosa, aplicação inconsistente e supressão de determinados pontos de vista causaram indignação entre usuários que alegam que a plataforma está reprimindo a liberdade de expressão. Por outro lado, a plataforma declara que as políticas foram criadas para manter um ambiente on-line seguro e inclusivo. Essa controvérsia levanta questões mais amplas sobre o papel das redes sociais na formação do discurso público e as responsabilidades das plataformas na seleção de conteúdos on-line".
response: "As pessoas estão indignadas com o site porque acreditam que ele não está sendo justo com o que as pessoas podem postar. Algumas pessoas dizem que o site está impedindo que elas falem o que querem. No entanto, o site alega que está tentando manter todos seguros. Isso faz com que as pessoas se perguntem se os sites deveriam controlar o que as pessoas podem expressar on-line".

Resultado

score: 4,
explanation: o resumo na resposta segue a instrução de resumir o contexto de uma maneira que uma criança de cinco anos consiga entender. Ele se baseia no contexto e fornece detalhes importantes no resumo. No entanto, a linguagem usada na resposta é um pouco excessiva.

Exemplo 2

O segundo exemplo é uma avaliação de comparação por par em PAIRWISE_QUESTION_ANSWERING_QUALITY. O resultado pairwise_choice mostra que a resposta do candidato "A França é um país localizado na Europa Ocidental" é preferencial para o modelo de avaliação em comparação com a resposta de referência "A França é um país" para responder à pergunta no comando. Assim como nos resultados por ponto, também é fornecida uma explicação sobre por que a resposta do candidato é melhor do que a resposta de referência (nesse caso, a resposta do candidato é mais útil).

Conjunto de dados

prompt: "Você consegue responder onde fica a França com base no parágrafo a seguir? A França é um país localizado na Europa Ocidental. Ela faz fronteira com Bélgica, Luxemburgo, Alemanha, Suíça, Itália, Mônaco, Espanha e Andorra. O litoral da França estende-se ao longo do Canal da Mancha, do Mar do Norte, do Oceano Atlântico e do Mar Mediterrâneo. Ela é conhecida por sua rica história, por pontos turísticos como a Torre Eiffel e por sua culinária deliciosa. A França é uma grande potência cultural e econômica na Europa e em todo o mundo".
response: "A França é um país localizado na Europa Ocidental.",
baseline_model_response: "A França é um país.",

Resultado

pairwise_choice: CANDIDATE,
explanation: a resposta BASELINE é fundamentada, mas não responde completamente à pergunta. No entanto, a resposta CANDIDATE está correta e fornece detalhes úteis sobre a localização da França.

A seguir

Teste um notebook de exemplo de avaliação.
Saiba mais sobre avaliação de IA generativa.