Conferir e interpretar os resultados da avaliação

Nesta página, descrevemos como conferir e interpretar os resultados da avaliação do modelo depois de realizá-la usando o serviço de avaliação de IA generativa.

Visualizar os resultados da avaliação

Com o serviço de avaliação de IA generativa, é possível visualizar os resultados da avaliação diretamente no ambiente de desenvolvimento, como um notebook do Colab ou do Jupyter. O método .show(), disponível nos objetos EvaluationDataset e EvaluationResult, renderiza um relatório HTML interativo para análise.

Visualizar rubricas geradas no conjunto de dados

Se você executar client.evals.generate_rubrics(), o objeto EvaluationDataset resultante vai conter uma coluna rubric_groups. É possível visualizar esse conjunto de dados para inspecionar as rubricas geradas para cada comando antes de executar a avaliação.

# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
    src=prompts_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Display the dataset with the generated rubrics
data_with_rubrics.show()

Uma tabela interativa é exibida com cada comando e as rubricas associadas geradas para ele, aninhadas na coluna rubric_groups:

Visualizar rubricas geradas no conjunto de dados

Como visualizar os resultados da inferência

Depois de gerar respostas com run_inference(), chame .show() no objeto EvaluationDataset resultante para inspecionar as saídas do modelo junto com seus comandos e referências originais. Isso é útil para uma verificação rápida da qualidade antes de executar uma avaliação completa:

# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
    model='gpt-4o',
    src=prompt_df
)

# Now, visualize the inference results
gpt_response.show()

Uma tabela é exibida com cada comando, a referência correspondente (se fornecida) e a resposta recém-gerada:

Como visualizar os resultados da inferência

Visualizar relatórios de avaliação

Quando você chama .show() em um objeto EvaluationResult, um relatório é exibido com duas seções principais:

  • Métricas de resumo: uma visão agregada de todas as métricas, mostrando a pontuação média e o desvio padrão em todo o conjunto de dados.

  • Resultados detalhados: uma análise caso a caso que permite inspecionar o comando, a referência, a resposta candidata e a pontuação e explicação específicas de cada métrica.

Relatório de avaliação de um único candidato

Para uma única avaliação de modelo, o relatório detalha as pontuações de cada métrica:

# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.FLUENCY,
        types.Metric(name='rouge_1'),
    ]
)

# Visualize the detailed evaluation report
eval_result.show()

Relatório de avaliação

Em todos os relatórios, é possível abrir uma seção Ver JSON bruto para inspecionar os dados em qualquer formato estruturado, como Gemini ou formato da API Chat Completion do OpenAI.

Relatório de avaliação adaptativa baseada em rubrica com veredictos

Ao usar métricas adaptativas baseadas em rubricas, os resultados incluem os veredictos de aprovação ou reprovação e o raciocínio de cada rubrica aplicada à resposta.

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)

eval_result.show()

A visualização mostra cada rubrica, o veredito (Aprovado ou Reprovado) e o raciocínio, aninhados nos resultados da métrica para cada caso. Para cada veredito específico da rubrica, é possível abrir um card para mostrar o payload JSON bruto. Esse payload JSON inclui outros detalhes, como a descrição completa da rubrica, o tipo, a importância e o raciocínio detalhado por trás do veredito.

Relatório de avaliação adaptativa baseada em rubrica com veredictos

Relatório de comparação de vários candidatos

O formato do relatório se adapta dependendo de você estar avaliando um único candidato ou comparando vários. Para uma avaliação com vários candidatos, o relatório oferece uma visualização lado a lado e inclui cálculos de taxa de vitória ou empate na tabela de resumo.

# Example of comparing two models
inference_result_1 = client.evals.run_inference(
    model="gemini-2.0-flash",
    src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
   model="gemini-2.5-flash",
    src=prompts_df,
)

comparison_result = client.evals.evaluate(
    dataset=[inference_result_1, inference_result_2],
    metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)

comparison_result.show()

Relatório de comparação de vários candidatos