Cette page explique comment afficher et interpréter les résultats de l'évaluation de votre modèle après l'avoir exécutée.
Afficher les résultats de l'évaluation
Une fois que vous avez défini votre tâche d'évaluation, exécutez-la pour obtenir les résultats de l'évaluation, comme suit:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
La classe EvalResult
représente le résultat d'une exécution d'évaluation avec les attributs suivants :
metrics_table
: résultats par instance.summary_metrics
: résultats agrégés pour toutes les instances pour toutes les métriques demandées.metadata
: nom du test et nom de l'exécution du test pour l'évaluation.
La classe EvalResult
est définie comme suit :
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
À l'aide de fonctions d'assistance, les résultats de l'évaluation peuvent être affichés dans le notebook Colab comme suit:
Visualiser les résultats de l'évaluation
Vous pouvez représenter des métriques récapitulatives dans un graphique en radar ou à barres à des fins de visualisation et de comparaison entre les résultats de différentes exécutions d'évaluation. Cette visualisation peut être utile pour évaluer différents modèles et différents modèles de requêtes.
Dans l'exemple suivant, nous visualisons quatre métriques (cohérence, fluidité, suivi des instructions et qualité globale du texte) pour les réponses générées à l'aide de quatre modèles de requêtes différents. D'après le graphique radar et le graphique à barres, nous pouvons en déduire que le modèle de requêtes 2 surpasse systématiquement les autres modèles pour les quatre métriques. Cela est particulièrement évident dans les scores nettement plus élevés pour le suivi des instructions et la qualité du texte. D'après cette analyse, le modèle de requêtes 2 semble être le choix le plus efficace parmi les quatre options.
Comprendre les résultats des métriques
Les tableaux suivants répertorient les différents composants des résultats agrégés et au niveau des instances inclus dans metrics_table
et summary_metrics
respectivement pour PointwiseMetric
, PairwiseMetric
et les métriques basées sur les calculs :
PointwiseMetric
Résultats au niveau de l'instance
Colonne | Description |
---|---|
réponse | Réponse générée par le modèle pour la requête. |
score | Note attribuée à la réponse en fonction des critères et de la grille d'évaluation. Le score peut être binaire (0 et 1), de l'échelle Likert (1 à 5, ou -2 à 2) ou un nombre à virgule flottante (0,0 à 1,0). |
Explication | Raison du score attribué par le modèle d'évaluation. Nous utilisons un raisonnement basé sur la chaîne de réflexion pour guider le modèle d'évaluation afin d'expliquer sa logique sous-jacente à chaque verdict. Forcer le modèle d'évaluation à raisonner améliore la précision de l'évaluation. |
Résultats cumulés
Colonne | Description |
---|---|
Score moyen | Score moyen pour toutes les instances. |
Écart type | Écart type pour tous les scores. |
PairwiseMetric
Résultats au niveau de l'instance
Colonne | Description |
---|---|
réponse | Réponse générée pour la requête par le modèle candidat. |
baseline_model_response | Réponse générée pour la requête par le modèle de référence. |
pairwise_choice | Modèle avec la meilleure réponse. Les valeurs possibles sont CANDIDATE, BASELINE ou TIE. |
Explication | Raison du choix du modèle d'évaluation. |
Résultats cumulés
Colonne | Description |
---|---|
candidate_model_win_rate | Ratio du nombre de fois où le modèle d'évaluation a décidé que le modèle candidat avait la meilleure réponse par rapport au nombre total de réponses. Les valeurs vont de 0 à 1. |
baseline_model_win_rate | Ratio du nombre de fois où le modèle d'évaluation a décidé que le modèle de référence avait la meilleure réponse par rapport au nombre total de réponses. Les valeurs vont de 0 à 1. |
Métriques basées sur le calcul
Résultats au niveau de l'instance
Colonne | Description |
---|---|
réponse | La réponse du modèle est en cours d'évaluation. |
référence | Réponse de référence. |
score | Le score est calculé pour chaque paire de réponses et de références. |
Résultats cumulés
Colonne | Description |
---|---|
Score moyen | Score moyen pour toutes les instances. |
Écart type | Écart type pour tous les scores. |
Exemples
Les exemples de cette section montrent comment lire et comprendre les résultats de l'évaluation.
Exemple 1
Dans le premier exemple, envisagez d'évaluer une instance d'évaluation par point pour TEXT_QUALITY
. Le score de l'évaluation par point de la métrique TEXT_QUALITY
est de 4 (sur une échelle de 1 à 5), ce qui signifie que la réponse est bonne. En outre, l'explication dans le résultat de l'évaluation indique pourquoi le modèle d'évaluation pense que la prédiction mérite le score 4, et non un score supérieur ou inférieur.
Ensemble de données
prompt
: "Résume le texte suivant pour qu'un enfant de cinq ans puisse le comprendre : Les plates-formes de réseaux sociaux font face à des réactions négatives suite aux règles de modération du contenu Une plate-forme bien connu de réseaux sociaux se retrouve en pleine controverse suite au mécontentement des utilisateurs et des créateurs de contenu quant aux règles de modération de contenu. Les allégations de censure biaisée, de mesures d'application incohérentes et de suppression de certains points de vue ont suscité l'indignation des utilisateurs qui affirment que la plate-forme entrave la liberté d'expression. D'un autre côté, la plate-forme déclare que ses règles sont conçues pour maintenir un environnement en ligne sûr et inclusif. Cette controverse soulève des questions plus générales sur le rôle des médias sociaux dans l'influence du discours public et sur les responsabilités des plates-formes en matière de sélection du contenu en ligne."response
: "Les gens sont mécontents d'un site Web, car ils pensent qu'il n'est pas équitable pour le contenu des publications. Certaines personnes disent que le site Web les empêche de dire ce qu'elles veulent. Mais le site Web dit qu'il essaie d'assurer la sécurité de tous. Les gens se demandent donc si les sites Web doivent contrôler ce que les gens peuvent dire en ligne."
Résultat
score
: 4,explanation
: le résumé fourni dans la réponse suit les instructions pour résumer le contexte de manière à ce qu'un enfant de cinq ans puisse le comprendre. Il est ancré dans le contexte et fournit des détails importants dans sa synthèse. Cependant, le langage utilisé dans la réponse est un peu détaillé.
Exemple 2
Le deuxième exemple est une évaluation de comparaison par paires sur PAIRWISE_QUESTION_ANSWERING_QUALITY
. Le résultat pairwise_choice
montre que le modèle d'évaluation préfère la réponse candidate "La France est un pays situé en Europe occidentale" à la réponse de référence "La France est un pays" pour répondre à la question de la requête. Comme pour les résultats ponctuels, une explication est également fournie pour expliquer pourquoi la réponse candidate est meilleure que la réponse de référence (la réponse candidate est plus utile dans ce cas).
Ensemble de données
prompt
: "Peux-tu me dire où se trouve la France d'après le paragraphe suivant ? La France est un pays situé en Europe occidentale. Elle a des frontières avec la Belgique, le Luxembourg, l'Allemagne, la Suisse, l'Italie, Monaco, l'Espagne et Andorre. La côte de la France s'étend le long de la Manche, de la mer du Nord, de l'océan Atlantique et de la mer Méditerranée. Connue pour sa riche histoire, ses sites emblématiques comme la tour Eiffel et sa cuisine délicieuse, la France est une grande puissance culturelle et économique en Europe et dans le monde entier."response
: "La France est un pays situé en Europe occidentale.",baseline_model_response
: "La France est un pays.",
Résultat
pairwise_choice
: candidate,explanation
: la réponse BASELINE est correcte, mais ne répond pas complètement à la question. Cependant, la réponse CANDIDATE est correcte et fournit des détails utiles sur l'emplacement de la France.
Étape suivante
Essayez un exemple de notebook d'évaluation.
Apprenez-en plus sur l'évaluation de l'IA générative.