Ensemble de données d'évaluation

L'ensemble de données d'évaluation comprend généralement la réponse du modèle que vous souhaitez évaluer, les données d'entrée utilisées pour générer votre réponse et peut inclure la réponse de vérité terrain. Ce tableau fournit les entrées requises pour créer l'ensemble de données d'évaluation.

Type d'entrée Contenu du champ de saisie
réponse Réponse d'inférence LLM à évaluer.
instruction Instructions et requête d'inférence envoyées à votre LLM.
context Contexte sur lequel repose votre réponse LLM. Pour la tâche de synthèse, il s'agit du texte que le LLM résume. Pour les tâches de réponse à une question, il s'agit des informations contextuelles fournies au LLM pour répondre à la question ouverte.
référence Vérité terrain à comparer à votre réponse LLM.
baseline_response Réponse d'inférence LLM de base utilisée pour comparer votre réponse LLM dans l'évaluation côte à côte. On parle également de "réponse de référence".

Les entrées requises pour l'ensemble de données d'évaluation diffèrent en fonction du paradigme d'évaluation et de la métrique que vous choisissez, ainsi que de la nature des tâches elles-mêmes. Pour obtenir la liste complète des métriques et de leurs entrées attendues, consultez la page Tâche et métriques.

Lors de l'organisation d'un ensemble de données d'évaluation, il est essentiel de s'assurer qu'il est suffisamment volumineux pour produire des résultats statistiquement pertinents. Un benchmark courant consiste à inclure au moins 100 échantillons. Cette taille permet d'établir un niveau de confiance plus élevé dans les résultats de l'évaluation agrégée, de minimiser l'influence des anomalies et de s'assurer que les métriques de performances reflètent les capacités réelles du modèle dans divers scénarios. Un ensemble de données de taille appropriée améliore non seulement la fiabilité de l'évaluation, mais fournit également une base plus solide pour prendre des décisions éclairées.

Utiliser l'ensemble de données d'évaluation

Après avoir préparé l'ensemble de données d'évaluation, vous pouvez l'utiliser dans le SDK Python pour l'évaluation rapide ou via le service de pipelines d'évaluation. L'ensemble de données peut être importé à partir d'emplacements tels que Cloud Storage. Vertex AI fournit également des ensembles de données Kaggle prétraités pour vous permettre de configurer votre workflow d'évaluation avant que votre ensemble de données personnalisé ne soit prêt à être utilisé. Pour savoir comment utiliser l'ensemble de données, consultez la section Effectuer une évaluation.

Utiliser un ensemble de données personnalisé

Le service d'évaluation de l'IA générative peut utiliser votre ensemble de données d'évaluation de plusieurs manières. Notre SDK Python et nos pipelines ont des exigences différentes concernant le format d'entrée de l'ensemble de données d'évaluation. Pour savoir comment importer des ensembles de données dans le SDK et les pipelines Python, consultez les exemples d'évaluation.

Fonctionnalités du service d'évaluation de l'IA générative Emplacements et format des ensembles de données compatibles Entrées obligatoires
SDK Python Fichier JSONL ou CSV stocké dans Cloud Storage

Table BigQuery

DataFrame Pandas
Le format doit être cohérent avec les exigences d'entrée de métriques sélectionnées, conformément à la section Tâche et métriques. Ces colonnes peuvent être requises :
  • response
  • reference
  • instruction
  • context
Pipeline basé sur le calcul Fichier JSONL stocké dans Cloud Storage input_text
output_text
Pipeline AutoSxS Fichier JSONL stocké dans Cloud Storage

Table BigQuery
Le format doit être cohérent avec ce dont chaque modèle a besoin pour l'inférence, et les paramètres sont attendus par l'outil d'évaluation automatique pour la tâche d'évaluation. Les paramètres d'entrée sont les suivants :
  • Colonnes des identifiants
  • Taper du texte pour l'inférence ou des prédictions prégénérées
  • Paramètres de requête de l'outil d'évaluation automatique

Utiliser un ensemble de données Kaggle

Si votre ensemble de données personnalisé n'est pas prêt à être utilisé avec le service d'évaluation de l'IA générative, Vertex AI fournit des ensembles de données Kaggle prétraités. Les ensembles de données sont compatibles avec les tâches telles que text generation, summarization et question answering. Les ensembles de données sont transformés aux formats suivants pouvant être utilisés par le SDK et les pipelines Python.

Ensemble de données Kaggle Tâches disponibles Ensemble de données prétraité URL Cloud Storage Fonctionnalité compatible
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Pipeline basé sur le calcul

SDK Python d'évaluation rapide

de pipeline AutoSxS
Transcriptions médicales Classification de texte medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Pipeline basé sur le calcul

Pipeline AutoSxS

Lorsque vous utilisez les ensembles de données, vous pouvez commencer par échantillonner une petite partie des lignes pour tester le workflow au lieu d'utiliser l'ensemble de données complet. Les demandeurs payeurs sont activés pour les ensembles de données répertoriés dans le tableau, ce qui signifie que des frais de traitement des données et d'utilisation du réseau s'appliquent.

Étapes suivantes