Afficher et interpréter les résultats de l'évaluation

Cette page explique comment afficher et interpréter les résultats de l'évaluation de votre modèle après l'avoir exécutée à l'aide de Gen AI Evaluation Service.

Afficher les résultats de l'évaluation

Le service d'évaluation de l'IA générative vous permet de visualiser vos résultats d'évaluation directement dans votre environnement de développement, comme un notebook Colab ou Jupyter. La méthode .show(), disponible sur les objets EvaluationDataset et EvaluationResult, affiche un rapport HTML interactif pour l'analyse.

Visualiser les rubriques générées dans votre ensemble de données

Si vous exécutez client.evals.generate_rubrics(), l'objet EvaluationDataset obtenu contient une colonne rubric_groups. Vous pouvez visualiser cet ensemble de données pour inspecter les rubriques générées pour chaque requête avant d'exécuter l'évaluation.

# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
    src=prompts_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Display the dataset with the generated rubrics
data_with_rubrics.show()

Un tableau interactif s'affiche avec chaque requête et les rubriques associées générées pour celle-ci, imbriquées dans la colonne rubric_groups :

Visualiser les rubriques générées dans votre ensemble de données

Visualiser les résultats de l'inférence

Après avoir généré des réponses avec run_inference(), vous pouvez appeler .show() sur l'objet EvaluationDataset résultant pour inspecter les sorties du modèle en même temps que vos requêtes et références d'origine. Cela peut être utile pour vérifier rapidement la qualité avant d'exécuter une évaluation complète :

# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
    model='gpt-4o',
    src=prompt_df
)

# Now, visualize the inference results
gpt_response.show()

Un tableau s'affiche avec chaque requête, sa référence correspondante (le cas échéant) et la réponse nouvellement générée :

Visualiser les résultats de l'inférence

Visualiser les rapports d'évaluation

Lorsque vous appelez .show() sur un objet EvaluationResult, un rapport s'affiche avec deux sections principales :

  • Métriques récapitulatives : vue agrégée de toutes les métriques, affichant le score moyen et l'écart-type pour l'ensemble de données.

  • Résultats détaillés : une analyse au cas par cas qui vous permet d'examiner la requête, la référence, la réponse candidate, ainsi que le score et l'explication spécifiques pour chaque métrique.

Rapport d'évaluation d'un seul candidat

Pour une évaluation de modèle unique, le rapport détaille les scores de chaque métrique :

# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.FLUENCY,
        types.Metric(name='rouge_1'),
    ]
)

# Visualize the detailed evaluation report
eval_result.show()

Rapport d'évaluation

Pour tous les rapports, vous pouvez développer la section Afficher le JSON brut afin d'inspecter les données pour tout format structuré tel que Gemini ou le format de l'API OpenAI Chat Completion.

Rapport d'évaluation basé sur une grille adaptative avec des verdicts

Lorsque vous utilisez des métriques adaptatives basées sur des rubriques, les résultats incluent les verdicts de réussite ou d'échec et le raisonnement pour chaque rubrique appliquée à la réponse.

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)

eval_result.show()

La visualisation montre chaque rubrique, son verdict (réussite ou échec) et le raisonnement, imbriqués dans les résultats des métriques pour chaque cas. Pour chaque verdict de grille d'évaluation spécifique, vous pouvez développer une fiche pour afficher la charge utile JSON brute. Cette charge utile JSON inclut des informations supplémentaires telles que la description complète de la grille, le type de grille, l'importance et le raisonnement détaillé derrière le verdict.

Rapport d'évaluation basé sur une grille adaptative avec des verdicts

Rapport de comparaison multicandidat

Le format du rapport s'adapte selon que vous évaluez un seul candidat ou que vous en comparez plusieurs. Pour une évaluation multicandidats, le rapport fournit une vue côte à côte et inclut des calculs du taux de victoire ou d'égalité dans le tableau récapitulatif.

# Example of comparing two models
inference_result_1 = client.evals.run_inference(
    model="gemini-2.0-flash",
    src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
   model="gemini-2.5-flash",
    src=prompts_df,
)

comparison_result = client.evals.evaluate(
    dataset=[inference_result_1, inference_result_2],
    metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)

comparison_result.show()

Rapport de comparaison multicandidat