Nesta página, descrevemos como conferir e interpretar os resultados da avaliação do modelo depois de realizá-la.
Visualizar os resultados da avaliação
Depois de definir a tarefa de avaliação, execute-a para receber os resultados da avaliação conforme a seguir:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
A classe EvalResult
representa o resultado de uma execução de avaliação com os seguintes atributos:
metrics_table
: os resultados por instância.summary_metrics
: os resultados agregados de todas as instâncias para todas as métricas solicitadas.metadata
: o nome do experimento e da execução do experimento para a execução da avaliação.
A classe EvalResult
é definida da seguinte maneira:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Com o uso de funções auxiliares, os resultados da avaliação podem ser exibidos no bloco do Colab da seguinte forma:
Exibir os resultados da avaliação
É possível representar as métricas de resumo em um gráfico de barras ou radar para visualização e comparação entre os resultados de diferentes execuções de avaliação. Essa visualização pode ser útil para avaliar diferentes modelos e diferentes modelos de comandos.
No exemplo a seguir, são exibidas quatro métricas (coerência, fluência, instruções seguidas e qualidade geral do texto) para as respostas geradas usando quatro modelos de comandos diferentes. Com base nos gráficos de radar e de barras, é possível inferir que o modelo de comando n° 2 supera consistentemente os outros modelos nas quatro métricas. Isso fica evidente nas notas significativamente mais altas relacionadas a instruções seguidas e qualidade do texto. Com base nessa análise, o modelo de comando n° 2 parece ser a escolha mais eficaz entre as quatro opções.
Entenda os resultados da métrica
As seguintes tabelas listam vários componentes de resultados agregados e de nível de instância incluídos em metrics_table
e em summary_metrics
, respectivamente, para as métricas PointwiseMetric
, PairwiseMetric
e baseadas em computação:
PointwiseMetric
Resultados no nível da instância
Coluna | Descrição |
---|---|
resposta | A resposta gerada para o comando pelo modelo. |
pontuação | A classificação dada à resposta de acordo com os critérios e a rubrica de classificação. A pontuação pode ser binária (0 e 1), em escala Likert (1 a 5 ou -2 a 2) ou em ponto flutuante (0,0 a 1,0). |
explicação | O motivo da pontuação do modelo juiz. Usamos o raciocínio baseado em cadeia de pensamento para orientar o modelo juiz a explicar a lógica por trás de cada veredito. Foi comprovado que forçar o modelo juiz a raciocinar melhora a precisão da avaliação. |
Resultados agregados
Coluna | Descrição |
---|---|
pontuação média | Pontuação média de todas as instâncias. |
desvio padrão | O desvio padrão para todas as pontuações. |
PairwiseMetric
Resultados no nível da instância
Coluna | Descrição |
---|---|
resposta | A resposta gerada para o comando pelo modelo candidato. |
baseline_model_response | A resposta gerada para o comando pelo modelo de referência. |
pairwise_choice | O modelo com a melhor resposta. Os valores possíveis são CANDIDATE, BASELINE ou TIE. |
explicação | O motivo da escolha pelo modelo juiz. |
Resultados agregados
Coluna | Descrição |
---|---|
candidate_model_win_rate | Proporção de tempo em que o modelo juiz decidiu que o modelo candidato tinha a melhor resposta em relação ao total de respostas. Varia de 0 a 1. |
baseline_model_win_rate | Proporção de tempo em que o modelo juiz decidiu que o modelo de referência tinha a melhor resposta em relação ao total de respostas. Varia de 0 a 1. |
Métricas com base em computação
Resultados no nível da instância
Coluna | Descrição |
---|---|
resposta | A resposta do modelo que está sendo avaliada. |
referência | A resposta de referência. |
pontuação | A pontuação é calculada para cada par de respostas e referências. |
Resultados agregados
Coluna | Descrição |
---|---|
pontuação média | Pontuação média de todas as instâncias. |
desvio padrão | O desvio padrão para todas as pontuações. |
Exemplos
Os exemplos desta seção demonstram como ler e entender os resultados da avaliação.
Exemplo 1
No primeiro exemplo, considere avaliar uma instância de avaliação por ponto para TEXT_QUALITY
. A pontuação da avaliação por ponto da métrica TEXT_QUALITY
é 4 (em uma escala de 1 a 5), o que significa que a resposta é boa. Além disso, a explicação do resultado da avaliação mostra por que o modelo juiz acredita que a previsão merece a pontuação 4 e não uma pontuação maior ou menor.
Conjunto de dados
prompt
: "Resuma o texto a seguir de uma forma que crianças de cinco anos entendam: uma plataforma de mídia social enfrenta reação negativa sobre políticas de moderação de conteúdo\nUma plataforma de mídia social conhecida se envolve em controvérsias com usuários e criadores de conteúdo, que expressam descontentamento em relação às políticas de moderação de conteúdo. Alegações de censura tendenciosa, aplicação inconsistente e supressão de determinados pontos de vista causaram indignação entre usuários que alegam que a plataforma está reprimindo a liberdade de expressão. Por outro lado, a plataforma declara que as políticas foram criadas para manter um ambiente on-line seguro e inclusivo. Essa controvérsia levanta questões mais amplas sobre o papel das redes sociais na formação do discurso público e as responsabilidades das plataformas na seleção de conteúdos on-line".response
: "As pessoas estão indignadas com o site porque acreditam que ele não está sendo justo com o que as pessoas podem postar. Algumas pessoas dizem que o site está impedindo que elas falem o que querem. No entanto, o site alega que está tentando manter todos seguros. Isso faz com que as pessoas se perguntem se os sites deveriam controlar o que as pessoas podem expressar on-line".
Resultado
score
: 4,explanation
: o resumo na resposta segue a instrução de resumir o contexto de uma maneira que uma criança de cinco anos consiga entender. Ele se baseia no contexto e fornece detalhes importantes no resumo. No entanto, a linguagem usada na resposta é um pouco excessiva.
Exemplo 2
O segundo exemplo é uma avaliação de comparação por par em PAIRWISE_QUESTION_ANSWERING_QUALITY
. O resultado pairwise_choice
mostra que a resposta do candidato "A França é um país localizado na Europa Ocidental" é preferencial para o modelo de avaliação em comparação com a resposta de referência "A França é um país" para responder à pergunta no comando. Assim como nos resultados por ponto, também é fornecida uma explicação sobre por que a resposta do candidato é melhor do que a resposta de referência (nesse caso, a resposta do candidato é mais útil).
Conjunto de dados
prompt
: "Você consegue responder onde fica a França com base no parágrafo a seguir? A França é um país localizado na Europa Ocidental. Ela faz fronteira com Bélgica, Luxemburgo, Alemanha, Suíça, Itália, Mônaco, Espanha e Andorra. O litoral da França estende-se ao longo do Canal da Mancha, do Mar do Norte, do Oceano Atlântico e do Mar Mediterrâneo. Ela é conhecida por sua rica história, por pontos turísticos como a Torre Eiffel e por sua culinária deliciosa. A França é uma grande potência cultural e econômica na Europa e em todo o mundo".response
: "A França é um país localizado na Europa Ocidental.",baseline_model_response
: "A França é um país.",
Resultado
pairwise_choice
: CANDIDATE,explanation
: a resposta BASELINE é fundamentada, mas não responde completamente à pergunta. No entanto, a resposta CANDIDATE está correta e fornece detalhes úteis sobre a localização da França.
A seguir
Teste um notebook de exemplo de avaliação.
Saiba mais sobre avaliação de IA generativa.