Présentation de Gen AI Evaluation Service

Gen AI Evaluation Service de Vertex AI vous permet d'évaluer n'importe quel modèle génératif ou application, et de comparer les résultats de l'évaluation à votre propre jugement, en utilisant vos propres critères d'évaluation.

Bien que les classements et les rapports fournissent des informations sur les performances globales du modèle, ils ne révèlent pas comment un modèle gère vos besoins spécifiques. Gen AI Evaluation Service vous aide à définir vos propres critères d'évaluation, ce qui vous permet de comprendre clairement dans quelle mesure les modèles et applications d'IA générative correspondent à votre cas d'utilisation unique.

L'évaluation est importante à chaque étape du processus de développement de l'IA générative, y compris la sélection du modèle, le prompt engineering et la personnalisation du modèle. L'évaluation de l'IA générative est intégrée à Vertex AI pour vous aider à lancer et à réutiliser les évaluations selon vos besoins.

Fonctionnalités de Gen AI Evaluation Service

Gen AI Evaluation Service peut vous aider dans les tâches suivantes :

  • Sélection du modèle : choisissez le meilleur modèle pré-entraîné pour votre tâche en fonction des résultats de l'analyse comparative et de ses performances sur vos données spécifiques.

  • Paramètres de génération : ajustez les paramètres du modèle (comme la température) pour optimiser la sortie en fonction de vos besoins.

  • Prompt engineering : créez des requêtes et des modèles de requêtes efficaces pour guider le modèle vers le comportement et les réponses de votre choix.

  • Améliorer et garantir l'optimisation : ajustez un modèle pour améliorer les performances de votre cas d'utilisation, tout en évitant les biais ou les comportements indésirables.

  • Optimisation de la génération augmentée par récupération (RAG) : sélectionnez l'architecture de génération augmentée par récupération (RAG) la plus efficace pour améliorer les performances de votre application.

  • Migration : évaluez et améliorez en continu les performances de votre solution d'IA en migrant vers des modèles plus récents lorsqu'ils offrent un avantage clair pour votre cas d'utilisation spécifique.

Processus d'évaluation

Gen AI Evaluation Service vous permet d'évaluer n'importe quel modèle ou application d'IA générative en fonction de vos critères d'évaluation en procédant comme suit :

  1. Définir les métriques d'évaluation

    • Découvrez comment adapter les métriques basées sur des modèles à vos critères d'entreprise.

    • Évaluez un seul modèle (par point) ou déterminez le gagnant lors de la comparaison de deux modèles (par paire).

    • Incluez des métriques basées sur les calculs pour obtenir des insights supplémentaires.

  2. Préparez votre ensemble de données d'évaluation.

    • Fournissez un ensemble de données qui reflète votre cas d'utilisation spécifique.
  3. Exécuter une évaluation

    • Commencez à partir de zéro, utilisez un modèle ou adaptez des exemples existants.

    • Définissez des modèles candidats et créez un EvalTask pour réutiliser votre logique d'évaluation via Vertex AI.

  4. Affichez et interprétez les résultats de votre évaluation.

Notebooks pour les cas d'utilisation d'évaluation

Le tableau suivant répertorie les notebooks du SDK Vertex AI pour Python pour différents cas d'utilisation d'évaluation de l'IA générative :

Cas d'utilisation Description Liens vers les notebooks
Évaluer des modèles Guide de démarrage rapide : Présentation du SDK Gen AI Evaluation Service. Premiers pas avec le SDK Gen AI Evaluation Service
Évaluez et sélectionnez des modèles de fondation propriétaires (1P) pour votre tâche. Évaluer et sélectionner des modèles de fondation propriétaires (1P) pour votre tâche
Évaluez et sélectionnez les paramètres du modèle d'IA générative :

Ajustez la température, la limite de jetons de sortie, les paramètres de sécurité et d'autres configurations de génération de modèles Gemini sur une tâche de résumé, puis comparez les résultats de l'évaluation de différents paramètres de modèle sur plusieurs métriques.
Comparer différents paramètres de modèle pour Gemini
Évaluez les modèles tiers sur Vertex AI Model Garden.

Ce notebook fournit un guide complet pour évaluer les modèles Gemini de Google et les modèles de langage tiers à l'aide du SDK Gen AI Evaluation Service. Découvrez comment évaluer et comparer des modèles provenant de différentes sources, y compris des modèles ouverts et fermés, des points de terminaison de modèles et des bibliothèques clientes tierces à l'aide de différentes métriques et techniques d'évaluation. Obtenez une expérience pratique dans la conduite d'expériences contrôlées et l'analyse des performances des modèles pour une série de tâches.
Utiliser le SDK Gen AI Evaluation pour évaluer des modèles dans Vertex AI Studio, Model Garden et Model Registry
Migrez de PaLM vers le modèle Gemini avec le SDK Gen AI Evaluation Service.

Ce notebook vous guide dans l'évaluation des modèles de fondation PaLM et Gemini à l'aide de plusieurs métriques d'évaluation pour vous aider à prendre des décisions concernant la migration d'un modèle à un autre. Nous visualisons ces métriques pour mieux comprendre les points forts et les points faibles de chaque modèle. Vous pouvez ainsi prendre une décision éclairée sur celui qui correspond le mieux aux exigences spécifiques de votre cas d'utilisation.
Comparer et migrer de PaLM vers le modèle Gemini
Évaluer les modèles de requêtes Prompte engineering et évaluation des requêtes avec le SDK Gen AI Evaluation Service Évaluer et optimiser la conception de modèles de requête pour de meilleurs résultats
Évaluer les applications d'IA générative Évaluer l'utilisation de l'outil de modèle Gemini et les fonctionnalités d'appel de fonction Évaluer l'utilisation de l'outil de modèle Gemini
Évaluez les réponses générées par la génération augmentée par récupération (RAG) pour une tâche de questions-réponses avec le SDK Gen AI Evaluation Service. Évaluer les réponses générées par la génération augmentée par récupération (RAG)
Évaluez les chatbots LangChain avec Vertex AI Gen AI Evaluation Service

Ce notebook montre comment évaluer un chatbot conversationnel LangChain à l'aide du SDK Vertex AI Gen AI Evaluation Service. Il aborde la préparation des données, la configuration de la chaîne LangChain, la création de métriques d'évaluation personnalisées et l'analyse des résultats. Le tutoriel utilise un chatbot de suggestions de recettes comme exemple et montre comment améliorer ses performances en itérant sur la conception de requête.
Évaluer LangChain
Personnalisation des métriques Personnalisez les métriques basées sur un modèle et évaluez un modèle d'IA générative en fonction de vos critères spécifiques à l'aide des fonctionnalités suivantes :

  • Personnalisation basée sur des modèles : utilisez des champs prédéfinis pour définir vos métriques ponctuelles et basées sur un modèle.
  • Personnalisation complète : contrôlez entièrement la conception de vos métriques basées sur des modèles ponctuels et par paires.
Personnaliser les métriques basées sur un modèle pour évaluer un modèle d'IA générative
Évaluez les modèles d'IA générative avec votre métrique personnalisée définie localement et utilisez votre propre modèle d'évaluation pour effectuer une évaluation de métrique basée sur un modèle. Utiliser votre propre outil d'évaluation automatique à l'aide d'une métrique personnalisée
Définissez vos propres fonctions de métriques personnalisées basées sur le calcul et utilisez-les pour l'évaluation avec le SDK Gen AI Evaluation Service. Utiliser votre propre métrique personnalisée basée sur le calcul
Autres thèmes Guide de migration du SDK Gen AI Evaluation Service de la version Preview vers la version DG

Ce tutoriel vous explique comment migrer de la version Preview vers la dernière version DG du SDK Vertex AI pour Python pour Gen AI Evaluation Service. Le guide explique également comment utiliser le SDK de la version DG pour évaluer la génération augmentée par récupération (RAG) et comparer deux modèles à l'aide de l'évaluation par paires.
Guide de migration de la version preview vers la version DG du SDK Gen AI Evaluation Service

Modèles et langages compatibles

Vertex AI Generative AI Evaluation Service est compatible avec les modèles de fondation, les modèles tiers et les modèles ouverts de Google. Vous pouvez fournir directement des prédictions prégénérées ou générer automatiquement des réponses de modèles candidats de différentes manières :

  • Générez automatiquement des réponses pour les modèles de fondation de Google (tels que Gemini 1.5 Pro) et tout modèle déployé dans Vertex AI Model Registry.

  • Intégrez au SDK des API de génération de texte d'autres modèles tiers et ouverts.

  • Encapsulez les points de terminaison de modèles d'autres fournisseurs à l'aide du SDK Vertex AI.

Generative AI Evaluation Service est compatible avec toutes les langues d'entrée acceptées par Gemini 1.5 Pro. Toutefois, la qualité des évaluations des entrées dans une langue autre que l'anglais peut être inférieure à celle des entrées rédigées en anglais.

Étape suivante