Bewertungs-Dataset

Das Bewertungs-Dataset besteht in der Regel aus der Modellantwort, die Sie auswerten möchten, den Eingabedaten, die zum Generieren der Antwort verwendet werden, und kann möglicherweise die Ground-Truth-Antwort enthalten. Diese Tabelle enthält die Eingaben, die zum Erstellen des Bewertungs-Datasets erforderlich sind.

Eingabetyp Inhalt des Eingabefelds
Antwort Ihre LLM-Inferenzantwort, die ausgewertet werden soll.
Anweisung Die Inferenzanweisung und der Inferenz-Prompt, die an Ihr LLM gesendet werden.
context Der Kontext, auf dem Ihre LLM-Antwort basiert. Bei der Zusammenfassungsaufgabe ist dies der Text, den das LLM zusammenfasst. Bei Question-Answering-Aufgaben sind dies die Hintergrundinformationen, die für das LLM bereitgestellt werden, damit es die open-book-Frage beantworten kann.
Referenz Die Grundwahrheit, mit der Ihre LLM-Antwort verglichen werden soll.
baseline_response Die Baseline-LLM-Inferenzantwort, die zum Vergleichen der LLM-Antwort mit der vergleichenden Bewertung verwendet wird. Dies wird auch als Baseline-Antwort bezeichnet.

Die erforderlichen Eingaben für das Bewertungs-Dataset unterscheiden sich je nach dem ausgewählten Bewertungsmodell und Messwert sowie der Art der Aufgaben selbst. Eine vollständige Liste der Messwerte und ihrer erwarteten Eingaben finden Sie unter Aufgabe und Messwerte.

So verwenden Sie das Bewertungs-Dataset

Nachdem Sie das Bewertungs-Dataset vorbereitet haben, können Sie es im Rapid Evaluation Python SDK oder über den Pipelines-Bewertungsdienst verwenden. Das Dataset kann aus Speicherorten wie Cloud Storage importiert werden. Vertex AI bietet auch einige vorverarbeitete Kaggle-Datasets, mit denen Sie Ihren Bewertungsworkflow einrichten können, bevor Ihr benutzerdefiniertes Dataset einsatzbereit ist. Details zur Nutzung des Datasets finden Sie unter Evaluierung ausführen.

Benutzerdefiniertes Dataset verwenden

Der Bewertungsdienst basierend auf generativer KI kann Ihr Bewertungs-Dataset auf verschiedene Arten nutzen. Unser Python SDK und Pipelines haben unterschiedliche Anforderungen an das Eingabeformat des Bewertungs-Datasets. Informationen zum Importieren von Datasets in das Python SDK und Pipelines finden Sie in den Bewertungsbeispielen.

Funktionen des Bewertungsdienstes basierend auf generativer KI Unterstützte Dataset-Standorte und -Format Erforderliche Eingaben
Python SDK In Cloud Storage gespeicherte JSONL- oder CSV-Datei

BigQuery-Tabelle

Pandas-DataFrame
Das Format sollte den ausgewählten Messwerteingabeanforderungen gemäß Aufgabe und Messwerte entsprechen. Folgende Spalten sind möglicherweise erforderlich:
  • response
  • reference
  • instruction
  • context
Berechnungsbasierte Pipeline In Cloud Storage gespeicherte JSONL-Datei input_text
output_text
AutoSxS-Pipeline In Cloud Storage gespeicherte JSONL-Datei

BigQuery-Tabelle
Das Format sollte den Anforderungen des jeweiligen Modells für die Inferenz entsprechen und die Parameter werden vom Autorater für die Bewertungsaufgabe erwartet. Zu den Eingabeparametern gehören:
  • ID-Spalten
  • Eingabetext für Inferenz oder vorab generierte Vorhersagen
  • Autorater-Prompt-Parameter

Kaggle-Dataset verwenden

Wenn Ihr benutzerdefiniertes Dataset nicht dafür bereit ist, mit dem Bewertungsdienst basierend auf generativer KI verwendet werden zu können, bietet Vertex AI vorverarbeitete Kaggle-Datasets. Die Datasets unterstützen Aufgaben wie text generation, summarization und question answering. Die Datasets werden in die folgenden Formate umgewandelt, die vom Python SDK und Pipelines verwendet werden können.

Kaggle-Dataset Unterstützte Aufgaben Vorverarbeitetes Dataset Cloud Storage-URL Unterstützte Funktion
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Berechnungsbasierte Pipeline

AutoSxS-Pipeline

Rapid Evaluation Python SDK
Medizinische Transkriptionen Textklassifizierung medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Berechnungsbasierte Pipeline

AutoSxS-Pipeline

Während Sie die Datasets verwenden, können Sie als Erstes einen kleinen Teil der Zeilen als Beispiel verwenden, um den Workflow zu testen, anstatt das gesamte Dataset zu verwenden. Für die in der Tabelle aufgeführten Datasets ist Anforderer bezahlt aktiviert. Es fallen also Gebühren für die Datenverarbeitung und die Netzwerknutzung an.

Nächste Schritte