In diesem Dokument wird beschrieben, wie Sie einen Datensatz für die beaufsichtigte Feinabstimmung für ein LLM-Modell für die Übersetzung definieren. Sie können Textdatentypen optimieren.
Überwachte Abstimmungs-Datasets
Mit einem Dataset für die überwachte Feinabstimmung wird ein vortrainiertes Modell auf eine bestimmte Domain abgestimmt. Die Eingabedaten sollten ähnlich denen aussehen, die Sie für das Modell in der Praxis erwarten. Die Ausgabelabels sollten die richtigen Antworten oder Ergebnisse für jede Eingabe darstellen.
Trainings-Dataset
Zum Abstimmen eines Modells stellen Sie ein Trainings-Dataset bereit. Die besten Ergebnisse erzielen Sie erst einmal mit 100 Beispielen. Bei Bedarf können Sie die Anzahl auf Tausende von Beispielen hochskalieren. Die Qualität des Datensatzes ist viel wichtiger als die Quantität.
Einschränkungen:
- Maximale Anzahl von Eingabe- und Ausgabetokens pro Beispiel: 1.000
- Maximale Dateigröße des Trainingsdatensatzes: Bis zu 1 GB für JSONL.
Validierungs-Dataset
Wir empfehlen dringend, einen Validierungsdatensatz anzugeben. Mit einem Validierungs-Dataset können Sie die Effektivität eines Abstimmungsjobs messen.
Einschränkungen:
- Maximale Anzahl von Eingabe- und Ausgabetokens pro Beispiel: 1.000
- Maximale Anzahl von Beispielen im Validierungs-Dataset: 1.024
- Maximale Dateigröße des Trainingsdatensatzes: Bis zu 1 GB für JSONL.
Dataset-Format
Ihr Dataset zur Abstimmung eines Modells muss im JSON Lines-Format (JSONL) vorliegen, wobei jede Zeile ein einzelnes Abstimmungsbeispiel enthält. Bevor Sie Ihr Modell abstimmen, müssen Sie Ihr Dataset in einen Cloud Storage-Bucket hochladen. Achten Sie darauf, die Datei in us-central1 hochzuladen.
{
"contents": [
{
"role": string,
"parts": [
{
"text": string,
}
]
}
]
}
Parameter
Das Beispiel enthält Daten mit den folgenden Parametern:
Parameter | |
---|---|
|
Erforderlich: Der Inhalt der aktuellen Unterhaltung mit dem Modell. Bei Einzelabfragen ist dies eine einzelne Instanz. |
Beispiel für einen Datensatz für translation-llm-002
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
}
{
"role": "model"",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
Inhalt
Der grundlegende strukturierte Datentyp, der mehrteilige Inhalte einer Nachricht enthält.
Diese Klasse besteht aus zwei Hauptattributen: role
und parts
. Das Attribut role
bezeichnet die Person, die den Inhalt erzeugt, während das Attribut parts
mehrere Elemente enthält, die jeweils ein Datensegment innerhalb einer Nachricht darstellen.
Parameter | |
---|---|
|
Optional: Die Identität der Entität, die die Nachricht erstellt. Folgende Werte werden unterstützt:
|
|
Eine Liste geordneter Teile einer einzelnen Nachricht. Limits für die Eingaben, z. B. die maximale Anzahl von Tokens oder die Anzahl der Bilder, finden Sie in den Modellspezifikationen auf der Seite Google-Modelle. Wie du die Anzahl der Tokens in deiner Anfrage berechnen kannst, erfährst du unter Tokenanzahl abrufen. |
Teile
Ein Datentyp mit Medien, die Teil einer mehrteiligen Content
-Nachricht sind.
Parameter | |
---|---|
|
Optional: Ein Text-Prompt oder ein Code-Snippet. |
Abstimmungs-Datasets in Cloud Storage hochladen
Zum Ausführen eines Abstimmungsjobs müssen Sie ein oder mehrere Datasets in einen Cloud Storage-Bucket hochladen. Sie können entweder einen neuen Cloud Storage-Bucket erstellen oder einen vorhandenen Bucket zum Speichern von Dataset-Dateien verwenden. Die Region des Buckets spielt keine Rolle. Wir empfehlen jedoch die Verwendung eines Buckets im selben Google Cloud-Projekt, in dem Sie die Modellabstimmung ausführen möchten.
Wenn der Bucket bereit ist, laden Sie Ihre Dataset-Datei in den Bucket hoch.
Nächste Schritte
- Führen Sie einen Job zur überwachten Feinabstimmung aus.