Afficher et interpréter les résultats de l'évaluation

Cette page explique comment afficher et interpréter les résultats de l'évaluation de votre modèle après l'avoir exécutée.

Afficher les résultats de l'évaluation

Une fois que vous avez défini votre tâche d'évaluation, exécutez-la pour obtenir les résultats de l'évaluation, comme suit:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

La classe EvalResult représente le résultat d'une exécution d'évaluation avec les attributs suivants :

  • metrics_table : résultats par instance.
  • summary_metrics : résultats agrégés pour toutes les instances pour toutes les métriques demandées.
  • metadata : nom du test et nom de l'exécution du test pour l'évaluation.

La classe EvalResult est définie comme suit :

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

À l'aide de fonctions d'assistance, les résultats de l'évaluation peuvent être affichés dans le notebook Colab comme suit:

Tableaux pour les métriques récapitulatives et les métriques basées sur les lignes

Visualiser les résultats de l'évaluation

Vous pouvez représenter des métriques récapitulatives dans un graphique en radar ou à barres à des fins de visualisation et de comparaison entre les résultats de différentes exécutions d'évaluation. Cette visualisation peut être utile pour évaluer différents modèles et différents modèles de requêtes.

Dans l'exemple suivant, nous visualisons quatre métriques (cohérence, fluidité, suivi des instructions et qualité globale du texte) pour les réponses générées à l'aide de quatre modèles de requêtes différents. D'après le graphique radar et le graphique à barres, nous pouvons en déduire que le modèle de requêtes 2 surpasse systématiquement les autres modèles pour les quatre métriques. Cela est particulièrement évident dans les scores nettement plus élevés pour le suivi des instructions et la qualité du texte. D'après cette analyse, le modèle de requêtes 2 semble être le choix le plus efficace parmi les quatre options.

Graphique en radar indiquant les scores de cohérence, de suivi des instructions, de qualité du texte et de fluidité pour tous les modèles de requêtes.

Graphique à barres indiquant la moyenne pour la cohérence, le respect des instructions, la qualité du texte et la fluidité pour tous les modèles de requêtes.

Comprendre les résultats des métriques

Les tableaux suivants répertorient les différents composants des résultats agrégés et au niveau des instances inclus dans metrics_table et summary_metrics respectivement pour PointwiseMetric, PairwiseMetric et les métriques basées sur les calculs :

PointwiseMetric

Résultats au niveau de l'instance

Colonne Description
réponse Réponse générée par le modèle pour la requête.
score Note attribuée à la réponse en fonction des critères et de la grille d'évaluation. Le score peut être binaire (0 et 1), de l'échelle Likert (1 à 5, ou -2 à 2) ou un nombre à virgule flottante (0,0 à 1,0).
Explication Raison du score attribué par le modèle d'évaluation. Nous utilisons un raisonnement basé sur la chaîne de réflexion pour guider le modèle d'évaluation afin d'expliquer sa logique sous-jacente à chaque verdict. Forcer le modèle d'évaluation à raisonner améliore la précision de l'évaluation.

Résultats cumulés

Colonne Description
Score moyen Score moyen pour toutes les instances.
Écart type Écart type pour tous les scores.

PairwiseMetric

Résultats au niveau de l'instance

Colonne Description
réponse Réponse générée pour la requête par le modèle candidat.
baseline_model_response Réponse générée pour la requête par le modèle de référence.
pairwise_choice Modèle avec la meilleure réponse. Les valeurs possibles sont CANDIDATE, BASELINE ou TIE.
Explication Raison du choix du modèle d'évaluation.

Résultats cumulés

Colonne Description
candidate_model_win_rate Ratio du nombre de fois où le modèle d'évaluation a décidé que le modèle candidat avait la meilleure réponse par rapport au nombre total de réponses. Les valeurs vont de 0 à 1.
baseline_model_win_rate Ratio du nombre de fois où le modèle d'évaluation a décidé que le modèle de référence avait la meilleure réponse par rapport au nombre total de réponses. Les valeurs vont de 0 à 1.

Métriques basées sur le calcul

Résultats au niveau de l'instance

Colonne Description
réponse La réponse du modèle est en cours d'évaluation.
référence Réponse de référence.
score Le score est calculé pour chaque paire de réponses et de références.

Résultats cumulés

Colonne Description
Score moyen Score moyen pour toutes les instances.
Écart type Écart type pour tous les scores.

Exemples

Les exemples de cette section montrent comment lire et comprendre les résultats de l'évaluation.

Exemple 1

Dans le premier exemple, envisagez d'évaluer une instance d'évaluation par point pour TEXT_QUALITY. Le score de l'évaluation par point de la métrique TEXT_QUALITY est de 4 (sur une échelle de 1 à 5), ce qui signifie que la réponse est bonne. En outre, l'explication dans le résultat de l'évaluation indique pourquoi le modèle d'évaluation pense que la prédiction mérite le score 4, et non un score supérieur ou inférieur.

Ensemble de données

  • prompt : "Résume le texte suivant pour qu'un enfant de cinq ans puisse le comprendre : Les plates-formes de réseaux sociaux font face à des réactions négatives suite aux règles de modération du contenu Une plate-forme bien connu de réseaux sociaux se retrouve en pleine controverse suite au mécontentement des utilisateurs et des créateurs de contenu quant aux règles de modération de contenu. Les allégations de censure biaisée, de mesures d'application incohérentes et de suppression de certains points de vue ont suscité l'indignation des utilisateurs qui affirment que la plate-forme entrave la liberté d'expression. D'un autre côté, la plate-forme déclare que ses règles sont conçues pour maintenir un environnement en ligne sûr et inclusif. Cette controverse soulève des questions plus générales sur le rôle des médias sociaux dans l'influence du discours public et sur les responsabilités des plates-formes en matière de sélection du contenu en ligne."

  • response : "Les gens sont mécontents d'un site Web, car ils pensent qu'il n'est pas équitable pour le contenu des publications. Certaines personnes disent que le site Web les empêche de dire ce qu'elles veulent. Mais le site Web dit qu'il essaie d'assurer la sécurité de tous. Les gens se demandent donc si les sites Web doivent contrôler ce que les gens peuvent dire en ligne."

Résultat

  • score: 4,
  • explanation : le résumé fourni dans la réponse suit les instructions pour résumer le contexte de manière à ce qu'un enfant de cinq ans puisse le comprendre. Il est ancré dans le contexte et fournit des détails importants dans sa synthèse. Cependant, le langage utilisé dans la réponse est un peu détaillé.

Exemple 2

Le deuxième exemple est une évaluation de comparaison par paires sur PAIRWISE_QUESTION_ANSWERING_QUALITY. Le résultat pairwise_choice montre que le modèle d'évaluation préfère la réponse candidate "La France est un pays situé en Europe occidentale" à la réponse de référence "La France est un pays" pour répondre à la question de la requête. Comme pour les résultats ponctuels, une explication est également fournie pour expliquer pourquoi la réponse candidate est meilleure que la réponse de référence (la réponse candidate est plus utile dans ce cas).

Ensemble de données

  • prompt : "Peux-tu me dire où se trouve la France d'après le paragraphe suivant ? La France est un pays situé en Europe occidentale. Elle a des frontières avec la Belgique, le Luxembourg, l'Allemagne, la Suisse, l'Italie, Monaco, l'Espagne et Andorre. La côte de la France s'étend le long de la Manche, de la mer du Nord, de l'océan Atlantique et de la mer Méditerranée. Connue pour sa riche histoire, ses sites emblématiques comme la tour Eiffel et sa cuisine délicieuse, la France est une grande puissance culturelle et économique en Europe et dans le monde entier."

  • response: "La France est un pays situé en Europe occidentale.",

  • baseline_model_response: "La France est un pays.",

Résultat

  • pairwise_choice : candidate,
  • explanation: la réponse BASELINE est correcte, mais ne répond pas complètement à la question. Cependant, la réponse CANDIDATE est correcte et fournit des détails utiles sur l'emplacement de la France.

Étape suivante