Daten für die überwachte Feinabstimmung von LLM-Modellen für die Übersetzung vorbereiten

In diesem Dokument wird beschrieben, wie Sie einen Datensatz für die beaufsichtigte Feinabstimmung für ein LLM-Modell für die Übersetzung definieren. Sie können Textdatentypen optimieren.

Überwachte Abstimmungs-Datasets

Mit einem Dataset für die überwachte Feinabstimmung wird ein vortrainiertes Modell auf eine bestimmte Domain abgestimmt. Die Eingabedaten sollten ähnlich denen aussehen, die Sie für das Modell in der Praxis erwarten. Die Ausgabelabels sollten die richtigen Antworten oder Ergebnisse für jede Eingabe darstellen.

Trainings-Dataset

Zum Abstimmen eines Modells stellen Sie ein Trainings-Dataset bereit. Die besten Ergebnisse erzielen Sie erst einmal mit 100 Beispielen. Bei Bedarf können Sie die Anzahl auf Tausende von Beispielen hochskalieren. Die Qualität des Datensatzes ist viel wichtiger als die Quantität.

Einschränkungen:

  • Maximale Anzahl von Eingabe- und Ausgabetokens pro Beispiel: 1.000
  • Maximale Dateigröße des Trainingsdatensatzes: Bis zu 1 GB für JSONL.

Validierungs-Dataset

Wir empfehlen dringend, einen Validierungsdatensatz anzugeben. Mit einem Validierungs-Dataset können Sie die Effektivität eines Abstimmungsjobs messen.

Einschränkungen:

  • Maximale Anzahl von Eingabe- und Ausgabetokens pro Beispiel: 1.000
  • Maximale Anzahl von Beispielen im Validierungs-Dataset: 1.024
  • Maximale Dateigröße des Trainingsdatensatzes: Bis zu 1 GB für JSONL.

Dataset-Format

Ihr Dataset zur Abstimmung eines Modells muss im JSON Lines-Format (JSONL) vorliegen, wobei jede Zeile ein einzelnes Abstimmungsbeispiel enthält. Bevor Sie Ihr Modell abstimmen, müssen Sie Ihr Dataset in einen Cloud Storage-Bucket hochladen. Achten Sie darauf, die Datei in us-central1 hochzuladen.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parameter

Das Beispiel enthält Daten mit den folgenden Parametern:

Parameter

contents

Erforderlich: Content

Der Inhalt der aktuellen Unterhaltung mit dem Modell.

Bei Einzelabfragen ist dies eine einzelne Instanz.

Beispiel für einen Datensatz für translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Inhalt

Der grundlegende strukturierte Datentyp, der mehrteilige Inhalte einer Nachricht enthält.

Diese Klasse besteht aus zwei Hauptattributen: role und parts. Das Attribut role bezeichnet die Person, die den Inhalt erzeugt, während das Attribut parts mehrere Elemente enthält, die jeweils ein Datensegment innerhalb einer Nachricht darstellen.

Parameter

role

Optional: string

Die Identität der Entität, die die Nachricht erstellt. Folgende Werte werden unterstützt:

  • user: Gibt an, dass die Nachricht von einer realen Person gesendet wurde, in der Regel eine von Nutzern erstellte Nachricht.
  • model: Gibt an, dass die Nachricht vom Modell generiert wird.

parts

part

Eine Liste geordneter Teile einer einzelnen Nachricht.

Limits für die Eingaben, z. B. die maximale Anzahl von Tokens oder die Anzahl der Bilder, finden Sie in den Modellspezifikationen auf der Seite Google-Modelle.

Wie du die Anzahl der Tokens in deiner Anfrage berechnen kannst, erfährst du unter Tokenanzahl abrufen.

Teile

Ein Datentyp mit Medien, die Teil einer mehrteiligen Content-Nachricht sind.

Parameter

text

Optional: string

Ein Text-Prompt oder ein Code-Snippet.

Abstimmungs-Datasets in Cloud Storage hochladen

Zum Ausführen eines Abstimmungsjobs müssen Sie ein oder mehrere Datasets in einen Cloud Storage-Bucket hochladen. Sie können entweder einen neuen Cloud Storage-Bucket erstellen oder einen vorhandenen Bucket zum Speichern von Dataset-Dateien verwenden. Die Region des Buckets spielt keine Rolle. Wir empfehlen jedoch die Verwendung eines Buckets im selben Google Cloud-Projekt, in dem Sie die Modellabstimmung ausführen möchten.

Wenn der Bucket bereit ist, laden Sie Ihre Dataset-Datei in den Bucket hoch.

Nächste Schritte