L'ensemble de données d'évaluation comprend généralement la réponse du modèle que vous souhaitez évaluer, les données d'entrée utilisées pour générer votre réponse et peut inclure la réponse de vérité terrain. Ce tableau fournit les entrées requises pour créer l'ensemble de données d'évaluation.
Type d'entrée | Contenu du champ de saisie |
---|---|
réponse | Réponse d'inférence LLM à évaluer. |
instruction | Instructions et requête d'inférence envoyées à votre LLM. |
context | Contexte sur lequel repose votre réponse LLM. Pour la tâche de synthèse, il s'agit du texte que le LLM résume. Pour les tâches de réponse à une question, il s'agit des informations contextuelles fournies au LLM pour répondre à la question ouverte. |
référence | Vérité terrain à comparer à votre réponse LLM. |
baseline_response | Réponse d'inférence LLM de base utilisée pour comparer votre réponse LLM dans l'évaluation côte à côte. On parle également de "réponse de référence". |
Les entrées requises pour l'ensemble de données d'évaluation diffèrent en fonction du paradigme d'évaluation et de la métrique que vous choisissez, ainsi que de la nature des tâches elles-mêmes. Pour obtenir la liste complète des métriques et de leurs entrées attendues, consultez la page Tâche et métriques.
Lors de l'organisation d'un ensemble de données d'évaluation, il est essentiel de s'assurer qu'il est suffisamment volumineux pour produire des résultats statistiquement pertinents. Un benchmark courant consiste à inclure au moins 100 échantillons. Cette taille permet d'établir un niveau de confiance plus élevé dans les résultats de l'évaluation agrégée, de minimiser l'influence des anomalies et de s'assurer que les métriques de performances reflètent les capacités réelles du modèle dans divers scénarios. Un ensemble de données de taille appropriée améliore non seulement la fiabilité de l'évaluation, mais fournit également une base plus solide pour prendre des décisions éclairées.
Utiliser l'ensemble de données d'évaluation
Après avoir préparé l'ensemble de données d'évaluation, vous pouvez l'utiliser dans le SDK Python pour l'évaluation rapide ou via le service de pipelines d'évaluation. L'ensemble de données peut être importé à partir d'emplacements tels que Cloud Storage. Vertex AI fournit également des ensembles de données Kaggle prétraités pour vous permettre de configurer votre workflow d'évaluation avant que votre ensemble de données personnalisé ne soit prêt à être utilisé. Pour savoir comment utiliser l'ensemble de données, consultez la section Effectuer une évaluation.
Utiliser un ensemble de données personnalisé
Le service d'évaluation de l'IA générative peut utiliser votre ensemble de données d'évaluation de plusieurs manières. Notre SDK Python et nos pipelines ont des exigences différentes concernant le format d'entrée de l'ensemble de données d'évaluation. Pour savoir comment importer des ensembles de données dans le SDK et les pipelines Python, consultez les exemples d'évaluation.
Fonctionnalités du service d'évaluation de l'IA générative | Emplacements et format des ensembles de données compatibles | Entrées obligatoires |
---|---|---|
SDK Python | Fichier JSONL ou CSV stocké dans Cloud Storage Table BigQuery DataFrame Pandas |
Le format doit être cohérent avec les exigences d'entrée de métriques sélectionnées, conformément à la section Tâche et métriques. Ces colonnes peuvent être requises :
|
Pipeline basé sur le calcul | Fichier JSONL stocké dans Cloud Storage | input_text output_text |
Pipeline AutoSxS | Fichier JSONL stocké dans Cloud Storage Table BigQuery |
Le format doit être cohérent avec ce dont chaque modèle a besoin pour l'inférence, et les paramètres sont attendus par l'outil d'évaluation automatique pour la tâche d'évaluation. Les paramètres d'entrée sont les suivants :
|
Utiliser un ensemble de données Kaggle
Si votre ensemble de données personnalisé n'est pas prêt à être utilisé avec le service d'évaluation de l'IA générative, Vertex AI fournit des ensembles de données Kaggle prétraités.
Les ensembles de données sont compatibles avec les tâches telles que text generation
, summarization
et question answering
. Les ensembles de données sont transformés aux formats suivants pouvant être utilisés par le SDK et les pipelines Python.
Ensemble de données Kaggle | Tâches disponibles | Ensemble de données prétraité | URL Cloud Storage | Fonctionnalité compatible |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
Pipeline basé sur le calcul SDK Python d'évaluation rapide de pipeline AutoSxS |
Transcriptions médicales | Classification de texte | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
Pipeline basé sur le calcul Pipeline AutoSxS |
Lorsque vous utilisez les ensembles de données, vous pouvez commencer par échantillonner une petite partie des lignes pour tester le workflow au lieu d'utiliser l'ensemble de données complet. Les demandeurs payeurs sont activés pour les ensembles de données répertoriés dans le tableau, ce qui signifie que des frais de traitement des données et d'utilisation du réseau s'appliquent.
Étapes suivantes
- Essayez un exemple de notebook d'évaluation.
- Apprenez-en plus sur l'évaluation de l'IA générative.
- Apprenez-en plus sur l'évaluation en ligne à l'aide d'une évaluation rapide.
- Apprenez-en plus sur l'évaluation par paire basée sur un modèle avec le pipeline AutoSxS.
- Découvrez le pipeline d'évaluation basé sur le calcul.
- Découvrez comment régler un modèle de fondation.