Cette page a été traduite par l'API Cloud Translation.

Évaluer un agent

Après avoir développé un agent, vous pouvez utiliser le service d'évaluation de l'IA générative pour évaluer sa capacité à accomplir des tâches et à atteindre des objectifs dans un cas d'utilisation donné.

Définir des métriques d'évaluation

Commencez par une liste de métriques vide (c'est-à-dire metrics = []) et ajoutez-y les métriques pertinentes. Pour inclure d'autres métriques :

Réponse finale

L'évaluation de la réponse finale suit le même processus que l'évaluation basée sur le modèle. Pour en savoir plus, consultez Définir vos métriques d'évaluation.

Correspondance exacte

metrics.append("trajectory_exact_match")

Si la trajectoire prédite est identique à la trajectoire de référence, avec exactement les mêmes appels d'outils dans le même ordre, la métrique trajectory_exact_match renvoie un score de 1, sinon 0.

Paramètres d'entrée :

predicted_trajectory : liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory : utilisation prévue de l'outil par l'agent pour répondre à la requête.

Correspondance dans l'ordre

metrics.append("trajectory_in_order_match")

Si la trajectoire prédite contient tous les appels d'outils de la trajectoire de référence dans le même ordre et peut également contenir des appels d'outils supplémentaires, la métrique trajectory_in_order_match renvoie un score de 1, sinon 0.

Paramètres d'entrée :

predicted_trajectory : trajectoire prédite utilisée par l'agent pour atteindre la réponse finale.
reference_trajectory : trajectoire prédite attendue pour que l'agent réponde à la requête.

Correspondance dans n'importe quel ordre

metrics.append("trajectory_any_order_match")

Si la trajectoire prédite contient tous les appels d'outils de la trajectoire de référence, mais que l'ordre n'a pas d'importance et peut contenir des appels d'outils supplémentaires, la métrique trajectory_any_order_match renvoie un score de 1, sinon 0.

Paramètres d'entrée :

predicted_trajectory : liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory : utilisation prévue de l'outil par l'agent pour répondre à la requête.

Précision

metrics.append("trajectory_precision")

La métrique trajectory_precision mesure le nombre d'appels d'outils dans la trajectoire prédite qui sont réellement pertinents ou corrects par rapport à la trajectoire de référence. Il s'agit d'une valeur float comprise entre [0, 1]. Plus le score est élevé, plus la trajectoire prédite est précise.

La précision est calculée comme suit : comptez le nombre d'actions de la trajectoire prédite qui apparaissent également dans la trajectoire de référence. Divisez ce nombre par le nombre total d'actions dans la trajectoire prédite.

Paramètres d'entrée :

predicted_trajectory : liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory : utilisation prévue de l'outil par l'agent pour répondre à la requête.

Rappel

metrics.append("trajectory_recall")

La métrique trajectory_recall mesure le nombre d'appels d'outils essentiels de la trajectoire de référence qui sont réellement capturés dans la trajectoire prédite. Il s'agit d'une valeur float comprise dans la plage [0, 1]. Plus le score est élevé, meilleur est le rappel de la trajectoire prédite.

Le rappel est calculé comme suit : comptez le nombre d'actions de la trajectoire de référence qui apparaissent également dans la trajectoire prédite. Divisez ce nombre par le nombre total d'actions dans la trajectoire de référence.

Paramètres d'entrée :

predicted_trajectory : liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.
reference_trajectory : utilisation prévue de l'outil par l'agent pour répondre à la requête.

Utilisation d'un seul outil

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La métrique trajectory_single_tool_use vérifie si un outil spécifique indiqué dans la spécification de la métrique est utilisé dans la trajectoire prédite. Il ne vérifie pas l'ordre des appels d'outils ni le nombre de fois où l'outil est utilisé, mais simplement s'il est présent ou non. La valeur est 0 si l'outil est absent, et 1 dans le cas contraire.

Paramètres d'entrée :

predicted_trajectory : liste des appels d'outils utilisés par l'agent pour obtenir la réponse finale.

Personnalisé

Vous pouvez définir une métrique personnalisée comme suit :

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Les deux métriques de performances suivantes sont toujours incluses dans les résultats. Vous n'avez pas besoin de les spécifier dans EvalTask :

latency (float) : temps (en secondes) mis par l'agent pour répondre.
failure (bool) : 0 si l'appel de l'agent a réussi, 1 dans le cas contraire.

Préparer l'ensemble de données d'évaluation

Pour préparer votre ensemble de données à l'évaluation finale de la réponse ou de la trajectoire :

Réponse finale

Le schéma de données pour l'évaluation des réponses finales est semblable à celui de l'évaluation des réponses du modèle.