Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Ce guide vous explique comment évaluer un modèle de juge en comparant ses performances à celles des évaluations humaines.
Cette page aborde les sujets suivants :
Préparer l'ensemble de données : découvrez comment structurer votre ensemble de données avec des évaluations humaines pour qu'il serve de vérité terrain pour l'évaluation.
Métriques disponibles : découvrez les métriques utilisées pour mesurer l'accord entre le modèle de juge et les évaluations humaines.
Évaluer la métrique basée sur un modèle : consultez un exemple de code expliquant comment exécuter un job d'évaluation et obtenir des scores de qualité pour votre modèle d'évaluation.
Pour les métriques basées sur un modèle, le service Gen AI Evaluation Service utilise un modèle de base, tel que Gemini, comme modèle d'évaluation pour évaluer vos modèles. Pour en savoir plus sur le modèle de juge, la série sur la personnalisation avancée du modèle de juge décrit d'autres outils que vous pouvez utiliser pour l'évaluer et le configurer.
L'utilisation de juges humains pour évaluer les grands modèles de langage (LLM) peut être coûteuse et prendre du temps. L'utilisation d'un modèle de jugement est une méthode plus évolutive pour évaluer les LLM. Le service d'évaluation de l'IA générative utilise par défaut un modèle Gemini 2.0 Flash configuré comme modèle d'évaluation, avec des requêtes personnalisables pour évaluer votre modèle pour différents cas d'utilisation.
Les sections suivantes vous expliquent comment évaluer un modèle de juge personnalisé pour votre cas d'utilisation idéal.
Types de métriques
Le service d'évaluation de l'IA générative utilise deux types de métriques basées sur des modèles pour évaluer les modèles d'évaluation.
Type de métrique
Description
Cas d'utilisation
PointwiseMetric
Attribue un score numérique à la sortie d'un modèle unique en fonction d'un critère spécifique (par exemple, la fluidité ou la sécurité).
Lorsque vous devez évaluer une seule réponse du modèle sur une échelle (par exemple, évaluer l'utilité sur une échelle de 1 à 5).
PairwiseMetric
Compare les sorties de deux modèles (un candidat et une référence) et choisit celle qui est préférée.
Lorsque vous devez déterminer laquelle des deux réponses d'un modèle est la meilleure pour une requête donnée.
Préparer l'ensemble de données
Pour évaluer les métriques basées sur des modèles, vous devez préparer un ensemble de données d'évaluation incluant des évaluations humaines qui serviront de vérité terrain. L'objectif est de comparer les scores des métriques basées sur des modèles avec les évaluations humaines pour déterminer si les métriques basées sur des modèles ont la qualité idéale pour votre cas d'utilisation.
Votre ensemble de données doit inclure une colonne pour les évaluations humaines qui correspond à la métrique basée sur le modèle que vous évaluez. Le tableau suivant indique la colonne de notation humaine requise pour chaque type de métrique :
Métrique basée sur un modèle
Colonne de classification humaine obligatoire
PointwiseMetric
{metric_name}/human_rating
PairwiseMetric
{metric_name}/human_pairwise_choice
Métriques disponibles
Gen AI Evaluation Service fournit différentes métriques en fonction du nombre de résultats possibles.
Métriques pour les résultats binaires
Pour un PointwiseMetric qui ne renvoie que deux scores (0 et 1, par exemple) et un PairwiseMetric qui ne comporte que deux types de préférences (modèle A ou modèle B), les métriques suivantes sont disponibles :
Utilisez les champs confusion_matrix et confusion_matrix_labels pour calculer des métriques telles que le taux de vrais positifs (TVP), le taux de vrais négatifs (TVN), le taux de faux positifs (TFP) et le taux de faux négatifs (TFN).
Pour un PointwiseMetric qui renvoie plus de deux scores (par exemple, de 1 à 5) et un PairwiseMetric qui comporte plus de deux types de préférences (modèle A, modèle B ou égalité), les métriques suivantes sont disponibles :
\( cnt_i \) : nombre de \( class_i \) dans les données de vérité terrain
\( sum \) : nombre d'éléments dans les données de vérité terrain
Pour calculer d'autres métriques, vous pouvez utiliser des bibliothèques Open Source.
Évaluer la métrique basée sur le modèle
L'exemple suivant met à jour la métrique basée sur le modèle avec une définition personnalisée de la fluidité, puis évalue la qualité de la métrique.
fromvertexai.preview.evaluationimport{AutoraterConfig,PairwiseMetric,}fromvertexai.preview.evaluation.autorater_utilsimportevaluate_autorater# Step 1: Prepare the evaluation dataset with the human rating data column.human_rated_dataset=pd.DataFrame({"prompt":[PROMPT_1,PROMPT_2],"response":[RESPONSE_1,RESPONSE_2],"baseline_model_response":[BASELINE_MODEL_RESPONSE_1,BASELINE_MODEL_RESPONSE_2],"pairwise_fluency/human_pairwise_choice":["model_A","model_B"]})# Step 2: Get the results from model-based metricpairwise_fluency=PairwiseMetric(metric="pairwise_fluency",metric_prompt_template="please evaluate pairwise fluency...")eval_result=EvalTask(dataset=human_rated_dataset,metrics=[pairwise_fluency],).evaluate()# Step 3: Calibrate model-based metric result and human preferences.# eval_result contains human evaluation result from human_rated_dataset.evaluate_autorater_result=evaluate_autorater(evaluate_autorater_input=eval_result.metrics_table,eval_metrics=[pairwise_fluency])
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/08/19 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/08/19 (UTC)."],[],[]]