Présentation du service d'évaluation de l'IA générative

Cette page présente le service d'évaluation de l'IA générative, qui vous permet d'évaluer les performances des modèles dans des cas d'utilisation spécifiques. L'évaluation est également appelée observabilité des performances d'un modèle. Le service d'évaluation de l'IA générative vous permet de surveiller les performances du modèle dans différentes conditions, en fournissant des insights qui vous aident à optimiser votre modèle en fonction de votre cas d'utilisation spécifique.

Les classements peuvent fournir des métriques sur les performances générales de votre modèle, mais pas sur ses performances dans des cas d'utilisation spécifiques. Lorsque vous développez de grands modèles de langage (LLM), il est important d'évaluer votre modèle à l'aide de critères spécifiques à votre cas d'utilisation.

Les évaluations vous aident à vous assurer que les modèles peuvent s'adapter aux exigences spécifiques à un domaine de différents utilisateurs. En évaluant les modèles par rapport aux benchmarks et aux objectifs définis par l'utilisateur, vous pouvez appliquer l'ingénierie des requêtes et le réglage du modèle pour mieux vous aligner sur les entreprises que vous servez. Ces évaluations sont utilisées pour guider le développement et l'amélioration des modèles, tout en vous assurant qu'ils sont utiles, sûrs et efficaces pour vos utilisateurs.

Pour évaluer un modèle qui n'est pas un grand modèle d'IA générative, consultez la section Évaluation de modèle dans Vertex AI.

Exemples de cas d'utilisation

Vous évaluez des modèles d'IA générative pour fournir une analyse comparative des performances des modèles et pour guider le développement stratégique et l'affinage de vos modèles et applications. Ce processus permet de s'assurer que les modèles d'IA générative correspondent à vos besoins métier. L'évaluation des modèles offre différents avantages pour différentes phases de développement. Pour la préproduction, vous pouvez utiliser l'évaluation de modèle pour vous aider à sélectionner un modèle et à le personnaliser. Pendant la production, vous pouvez surveiller les performances de votre modèle pour vous assurer qu'il est efficace.

L'évaluation de l'IA générative peut être appliquée à différents cas d'utilisation, y compris les suivants :

  • Sélectionner des modèles pré-entraînés : choisissez un modèle pré-entraîné pour une tâche ou une application spécifique en évaluant les performances du modèle sur les tâches d'analyse comparative associées.
  • Configurer les paramètres de génération de modèle : optimisez les paramètres de configuration des paramètres de génération de modèle, tels que temperature, qui peuvent améliorer les performances des tâches.
  • Ingénierie des requêtes à l'aide d'un modèle: concevez des requêtes plus efficaces qui permettent d'obtenir des résultats de meilleure qualité, ce qui améliore votre interaction avec le modèle.
  • Améliorer et garantir l'optimisation : ajustez les processus pour améliorer les performances du modèle tout en évitant les biais ou les comportements indésirables.

Pour en savoir plus sur les modèles de langage génératif, consultez la page Notebooks d'évaluation.

Services d'évaluation

Vertex AI propose deux options de service pour effectuer des évaluations sur des modèles d'IA générative. Choisissez le service qui convient le mieux à votre cas d'utilisation :

Service Cas d'utilisation
Évaluation en ligne (évaluation rapide) Quelques instances à évaluer. Workflows nécessitant des itérations rapides.
Évaluation des pipelines (AutoSxS et basé sur le calcul) Nombreuses instances à évaluer. Workflows asynchrones et MLOps. Modèles d'évaluation basés sur Vertex AI Pipelines.

Évaluation rapide

Le service d'évaluation rapide produit des évaluations synchrones et à faible latence sur de petits lots de données. Vous pouvez effectuer des évaluations à la demande et intégrer le service en ligne à d'autres services Vertex AI à l'aide du SDK Vertex AI pour Python. L'utilisation du SDK permet d'adapter le service en ligne à de nombreux cas d'utilisation.

Le service en ligne convient mieux aux cas d'utilisation impliquant de petits lots de données ou lorsque vous devez effectuer des itérations et effectuer rapidement des tests.

Évaluation des pipelines : AutoSxS et basé sur le calcul

Les services de pipeline d'évaluation fournissent des options de bout en bout pour évaluer des modèles d'IA générative. Ces options utilisent Vertex AI Pipelines pour orchestrer une série d'étapes liées à l'évaluation, telles que la génération des réponses du modèle, l'appel du service d'évaluation en ligne et le calcul des métriques. Ces étapes peuvent également être appelées individuellement dans des pipelines personnalisés.

Comme Vertex AI Pipelines est sans serveur, la latence de démarrage est plus élevée lorsque vous utilisez des pipelines pour l'évaluation. Par conséquent, ce service convient mieux aux tâches d'évaluation plus volumineuses, aux workflows pour lesquels les évaluations ne sont pas immédiatement nécessaires et à l'intégration aux pipelines MLOps.

Nous proposons deux pipelines d'évaluation distincts :

Paradigmes d'évaluation

Les évaluations d'IA générative fonctionnent grâce à deux paradigmes d'évaluation des modèles, qui incluent :

  • Par point : vous pouvez évaluer un modèle.
  • Par paire : vous pouvez comparer deux modèles entre eux.

Par point

L'évaluation par point permet d'évaluer les performances d'un seul modèle. Elle vous permet de comprendre les performances du modèle sur une tâche spécifique, telle que summarization ou une dimension, telle que instruction following. Le processus d'évaluation comprend les étapes suivantes :

  1. Les résultats prédits sont générés à partir du modèle en fonction de la requête d'entrée.
  2. L'évaluation est effectuée en fonction des résultats générés.

Selon la méthode d'évaluation, des paires d'entrée et de sortie et la vérité terrain peuvent être requises. Lorsque la vérité terrain est disponible, les résultats du modèle sont évalués en fonction de leur adéquation avec les résultats attendus. Pour en savoir plus, consultez la section Exécuter une évaluation basée sur le calcul. Lorsqu'elle est utilisée sans vérité terrain, l'évaluation repose sur la réponse du modèle aux requêtes d'entrée. Un modèle d'évaluateur automatique distinct est également utilisé. Pour plus d'informations, consultez la page Exécuter l'évaluation AutoSxS (évaluation basée sur un modèle par paire) pour produire des métriques personnalisées en fonction de la nature de la tâche. Par exemple, vous pouvez utiliser coherence et relevance dans text generation, ou accuracy dans summarization.

Ce paradigme permet de comprendre les capacités d'un modèle à générer du contenu, en fournissant des insights sur ses points forts et ses domaines d'amélioration dans un contexte autonome, sans nécessiter de comparaison directe avec un autre modèle.

Par paire

L'évaluation par paire consiste à comparer les prédictions de deux modèles. Vous disposez d'un modèle A à évaluer par rapport à un modèle B, le modèle de référence. Vous devez fournir des requêtes d'entrée qui représentent le domaine d'entrée utilisé pour la comparaison des modèles. Avec la même requête d'entrée, la comparaison côte à côte spécifie la prédiction de modèle à privilégier en fonction de vos critères de comparaison. Les résultats finaux de l'évaluation sont capturés par win rate. Ce paradigme peut également fonctionner sans avoir besoin d'une référence aux données de vérité terrain.

Méthodes d'évaluation

Il existe deux catégories de métriques basées sur la méthode d'évaluation, à savoir :

Métriques basées sur le calcul

Les métriques basées sur le calcul comparent la cohérence des résultats générés par le LLM à un ensemble de données de vérité terrain de paires d'entrée et de sortie. Les métriques couramment utilisées peuvent être classées dans les groupes suivants :

  • Métriques basées sur le lexique : utilisez les mathématiques pour calculer les similarités de chaînes entre les résultats générés par le LLM et la vérité terrain, telles que Exact Match et ROUGE.
  • Métriques basées sur les nombres : agrégez le nombre de lignes qui atteignent ou manquent certaines étiquettes de vérité terrain, telles que F1-score, Accuracy et Tool Name Match.
  • Métriques basées sur des représentations vectorielles continues : calculez la distance entre les résultats générés par le LLM et la vérité terrain dans l'espace de représentation vectorielle, en reflétant leur niveau de similarité.

Dans le service d'évaluation d'IA générative, vous pouvez utiliser des métriques basées sur le calcul via le pipeline et le SDK Python d'évaluation rapide. L'évaluation basée sur le calcul ne peut être effectuée que dans des cas d'utilisation par point. Toutefois, vous pouvez comparer directement les scores des métriques de deux modèles pour une comparaison par paire.

Métriques basées sur un modèle

Un modèle d'évaluation automatique permet de générer des métriques d'évaluation basées sur un modèle. Tout comme les évaluateurs humains, l'évaluateur automatique effectue des évaluations complexes et nuancées. Les évaluateurs automatiques tentent d'améliorer l'évaluation humaine, et nous calibrons la qualité des évaluateurs automatiques hors connexion avec des évaluateurs humains. Tout comme les évaluateurs humains, l'évaluateur automatique détermine la qualité des réponses à l'aide d'un score numérique et fournit le raisonnement derrière ses jugements, ainsi qu'un niveau de confiance. Pour en savoir plus, consultez la section Afficher les résultats de l'évaluation.

L'évaluation basée sur un modèle est disponible à la demande. Elle évalue les modèles de langage dont les performances sont comparables à celles des évaluateurs humains. Voici quelques avantages supplémentaires de l'évaluation basée sur un modèle :

  • Évalue des modèles de langage naturel sans données de préférence humaine
  • Atteint une meilleure évolutivité, augmente la disponibilité et réduit les coûts par rapport à l'évaluation des modèles de langage par des évaluateurs humains.
  • Atteint une transparence d'évaluation en capturant les explications des préférences et les scores de confiance

Ce diagramme illustre le fonctionnement de l'évaluation basée sur un modèle par paire, qui peut être effectuée dans des cas d'utilisation par point ou par paire. Vous pouvez voir comment l'évaluateur automatique effectue une évaluation par paire dans le service de pipeline d'évaluation, AutoSxS.

Présentation du fonctionnement d'AutoSxS

Étapes suivantes