Das Bewertungs-Dataset besteht in der Regel aus der Modellantwort, die Sie auswerten möchten, den Eingabedaten, die zum Generieren der Antwort verwendet werden, und kann möglicherweise die Ground-Truth-Antwort enthalten. Diese Tabelle enthält die Eingaben, die zum Erstellen des Bewertungs-Datasets erforderlich sind.
Eingabetyp | Inhalt des Eingabefelds |
---|---|
Antwort | Ihre LLM-Inferenzantwort, die ausgewertet werden soll. |
Anweisung | Die Inferenzanweisung und der Inferenz-Prompt, die an Ihr LLM gesendet werden. |
context | Der Kontext, auf dem Ihre LLM-Antwort basiert. Bei der Zusammenfassungsaufgabe ist dies der Text, den das LLM zusammenfasst. Bei Question-Answering-Aufgaben sind dies die Hintergrundinformationen, die für das LLM bereitgestellt werden, damit es die open-book-Frage beantworten kann. |
Referenz | Die Grundwahrheit, mit der Ihre LLM-Antwort verglichen werden soll. |
baseline_response | Die Baseline-LLM-Inferenzantwort, die zum Vergleichen der LLM-Antwort mit der vergleichenden Bewertung verwendet wird. Dies wird auch als Baseline-Antwort bezeichnet. |
Die erforderlichen Eingaben für das Bewertungs-Dataset unterscheiden sich je nach dem ausgewählten Bewertungsmodell und Messwert sowie der Art der Aufgaben selbst. Eine vollständige Liste der Messwerte und ihrer erwarteten Eingaben finden Sie unter Aufgabe und Messwerte.
So verwenden Sie das Bewertungs-Dataset
Nachdem Sie das Bewertungs-Dataset vorbereitet haben, können Sie es im Rapid Evaluation Python SDK oder über den Pipelines-Bewertungsdienst verwenden. Das Dataset kann aus Speicherorten wie Cloud Storage importiert werden. Vertex AI bietet auch einige vorverarbeitete Kaggle-Datasets, mit denen Sie Ihren Bewertungsworkflow einrichten können, bevor Ihr benutzerdefiniertes Dataset einsatzbereit ist. Details zur Nutzung des Datasets finden Sie unter Evaluierung ausführen.
Benutzerdefiniertes Dataset verwenden
Der Bewertungsdienst basierend auf generativer KI kann Ihr Bewertungs-Dataset auf verschiedene Arten nutzen. Unser Python SDK und Pipelines haben unterschiedliche Anforderungen an das Eingabeformat des Bewertungs-Datasets. Informationen zum Importieren von Datasets in das Python SDK und Pipelines finden Sie in den Bewertungsbeispielen.
Funktionen des Bewertungsdienstes basierend auf generativer KI | Unterstützte Dataset-Standorte und -Format | Erforderliche Eingaben |
---|---|---|
Python SDK | In Cloud Storage gespeicherte JSONL- oder CSV-Datei BigQuery-Tabelle Pandas-DataFrame |
Das Format sollte den ausgewählten Messwerteingabeanforderungen gemäß Aufgabe und Messwerte entsprechen. Folgende Spalten sind möglicherweise erforderlich:
|
Berechnungsbasierte Pipeline | In Cloud Storage gespeicherte JSONL-Datei | input_text output_text |
AutoSxS-Pipeline | In Cloud Storage gespeicherte JSONL-Datei BigQuery-Tabelle |
Das Format sollte den Anforderungen des jeweiligen Modells für die Inferenz entsprechen und die Parameter werden vom Autorater für die Bewertungsaufgabe erwartet. Zu den Eingabeparametern gehören:
|
Kaggle-Dataset verwenden
Wenn Ihr benutzerdefiniertes Dataset nicht dafür bereit ist, mit dem Bewertungsdienst basierend auf generativer KI verwendet werden zu können, bietet Vertex AI vorverarbeitete Kaggle-Datasets.
Die Datasets unterstützen Aufgaben wie text generation
, summarization
und question answering
. Die Datasets werden in die folgenden Formate umgewandelt, die vom Python SDK und Pipelines verwendet werden können.
Kaggle-Dataset | Unterstützte Aufgaben | Vorverarbeitetes Dataset | Cloud Storage-URL | Unterstützte Funktion |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
Berechnungsbasierte Pipeline AutoSxS-Pipeline Rapid Evaluation Python SDK |
Medizinische Transkriptionen | Textklassifizierung | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
Berechnungsbasierte Pipeline AutoSxS-Pipeline |
Während Sie die Datasets verwenden, können Sie als Erstes einen kleinen Teil der Zeilen als Beispiel verwenden, um den Workflow zu testen, anstatt das gesamte Dataset zu verwenden. Für die in der Tabelle aufgeführten Datasets ist Anforderer bezahlt aktiviert. Es fallen also Gebühren für die Datenverarbeitung und die Netzwerknutzung an.
Nächste Schritte
- Probieren Sie ein Bewertungs-Beispielnotebook aus.
- Weitere Informationen zur Bewertung mit generativer KI
- Weitere Informationen zur Onlinebewertung mithilfe der schnellen Bewertung.
- Weitere Informationen zur modellbasierten paarweisen Auswertung mit AutoSxS-Pipeline
- Informationen zur berechnungsbasierten Auswertungspipeline
- Foundation Model optimieren