Préparer les données d'affinage supervisé pour les modèles LLM de traduction

Ce document explique comment définir un ensemble de données d'affinage supervisé pour un modèle LLM de traduction. Vous pouvez ajuster les types de données textuelles.

À propos des ensembles de données d'affinage supervisé

Un ensemble de données d'affinage supervisé permet d'affiner un modèle pré-entraîné pour un domaine spécifique. Les données d'entrée doivent être semblables à celles que le modèle est susceptible de rencontrer dans un contexte réel. Les libellés de sortie doivent représenter les bonnes réponses ou les résultats pour chaque entrée.

Ensemble de données d'entraînement

Pour affiner un modèle, vous devez fournir un ensemble de données d'entraînement. Pour obtenir de meilleurs résultats, nous vous recommandons de commencer avec 100 exemples. Vous pouvez augmenter le nombre d'exemples jusqu'à plusieurs milliers si nécessaire. La qualité de l'ensemble de données est bien plus importante que sa quantité.

Limites :

  • Nombre maximal de jetons d'entrée et de sortie par exemple: 1 000
  • Taille de fichier maximale de l'ensemble de données d'entraînement : jusqu'à 1 Go pour JSONL.

Ensemble de données de validation

Nous vous recommandons vivement de fournir un ensemble de données de validation. Un ensemble de données de validation vous aide à mesurer l'efficacité d'une tâche de réglage.

Limites :

  • Nombre maximal de jetons d'entrée et de sortie par exemple: 1 000
  • Nombre maximal d'exemples dans l'ensemble de données de validation: 1 024
  • Taille de fichier maximale de l'ensemble de données d'entraînement : jusqu'à 1 Go pour JSONL.

Format de l'ensemble de données

Votre ensemble de données de réglage de modèle doit être au format JSON Lines (JSONL), où chaque ligne contient un seul exemple de réglage. Avant de régler le modèle, vous devez importer l'ensemble de données dans un bucket Cloud Storage. Veillez à importer le fichier dans us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Paramètres

L'exemple contient des données avec les paramètres suivants:

Paramètres

contents

Requis : Content

Contenu de la conversation en cours avec le modèle.

Pour les requêtes à un seul tour, il s'agit d'une instance unique.

Exemple d'ensemble de données pour translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Sommaire

Type de données structurées de base comportant un contenu en plusieurs parties d'un message.

Cette classe comprend deux propriétés principales : role et parts. La propriété role indique l'individu qui produit le contenu, tandis que la propriété parts contient plusieurs éléments, chacun représentant un segment de données au sein d'un message.

Paramètres

role

Facultatif : string.

Identité de l'entité qui crée le message. Les valeurs suivantes sont acceptées :

  • user : indique que le message est envoyé par une personne réelle, généralement un message généré par un utilisateur.
  • model : indique que le message est généré par le modèle.

parts

part

Une liste de parties ordonnées qui composent un seul message.

Pour connaître les limites concernant les entrées, comme le nombre maximal de jetons ou d'images, consultez les spécifications du modèle sur la page Modèles Google.

Pour calculer le nombre de jetons dans votre requête, consultez Obtenir le nombre de jetons.

Parties

Type de données contenant du contenu multimédia faisant partie d'un message Content en plusieurs parties.

Paramètres

text

Facultatif : string.

Requête de texte ou extrait de code.

Importer les ensembles de données de réglage dans Cloud Storage

Pour exécuter un job de réglage, vous devez importer un ou plusieurs ensembles de données dans un bucket Cloud Storage. Vous pouvez créer un bucket Cloud Storage ou utiliser un bucket existant pour stocker les fichiers des ensembles de données. La région du bucket n'a pas d'importance, mais nous vous recommandons d'utiliser un bucket situé dans le même projetGoogle Cloud que celui où vous prévoyez de régler votre modèle.

Une fois votre bucket prêt, importez-y le fichier de votre ensemble de données.

Exemples de notebooks pour préparer des données

Voici quelques exemples de notebooks Colab pour vous aider à vous lancer.

Ensemble de données AutoML Translation

Si vous avez déjà importé des ensembles de données de traduction dans AutoML Translation, vous pouvez suivre l'exemple Colab pour les exporter afin de les ajuster.

Logo Google Colaboratory
Exécuter dans Colab
Logo Google Cloud Colab Enterprise
Exécuter dans Colab Enterprise
Logo GitHub
Afficher sur GitHub

Ensemble de données local

Si vos données sont au format TSV, CSV ou TMX localement, vous pouvez les importer dans Colab pour les ajuster.

Logo Google Colaboratory
Exécuter dans Colab
Logo Google Cloud Colab Enterprise
Exécuter dans Colab Enterprise
Logo GitHub
Afficher sur GitHub

Étape suivante