Prepara datos de ajuste supervisado para los modelos de LLM de traducción

En este documento, se describe cómo definir un conjunto de datos de ajuste fino supervisado para un modelo de LLM de traducción. Puedes ajustar los tipos de datos de texto.

Acerca de los conjuntos de datos de ajuste supervisado

Se usa un conjunto de datos de ajuste fino supervisado para ajustar un modelo previamente entrenado a un dominio específico. Los datos de entrada deben ser similares a los que esperas que el modelo encuentre en el uso real. Las etiquetas de salida deben representar las respuestas o los resultados correctos para cada entrada.

Conjunto de datos de entrenamiento

Para ajustar un modelo, debes proporcionar un conjunto de datos de entrenamiento. Para obtener mejores resultados, te recomendamos que comiences con 100 ejemplos. Si es necesario, puedes escalar hasta miles de ejemplos. La calidad del conjunto de datos es mucho más importante que la cantidad.

Limitaciones:

  • Cantidad máxima de tokens de entrada y salida por ejemplo: 1,000
  • Tamaño máximo del archivo del conjunto de datos de entrenamiento: Hasta 1 GB para JSONL.

Conjunto de datos de validación

Te recomendamos que proporciones un conjunto de datos de validación. Un conjunto de datos de validación te ayuda a medir la eficacia de un trabajo de ajuste.

Limitaciones:

  • Cantidad máxima de tokens de entrada y salida por ejemplo: 1,000
  • Cantidad máxima de ejemplos en el conjunto de datos de validación: 1,024
  • Tamaño máximo del archivo del conjunto de datos de entrenamiento: Hasta 1 GB para JSONL.

Formato del conjunto de datos

El conjunto de datos de ajuste de modelos debe estar en el formato líneas JSON (JSONL), en el que cada línea contiene un solo ejemplo de ajuste. Antes de ajustar tu modelo, debes subir tu conjunto de datos a un bucket de Cloud Storage. Asegúrate de subir el archivo a us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parámetros

El ejemplo contiene datos con los siguientes parámetros:

Parámetros

contents

Obligatorio: Content

El contenido de la conversación actual con el modelo.

Para consultas de un solo turno, esta es una instancia única.

Ejemplo de conjunto de datos para translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Contenido

El tipo de datos estructurados base que incluye contenido de varias partes de un mensaje.

Esta clase consta de dos propiedades principales: role y parts. La propiedad role denota la persona que produce el contenido, mientras que la propiedad parts contiene varios elementos, cada uno de los cuales representa un segmento de datos dentro de un mensaje.

Parámetros

role

Opcional: string

La identidad de la entidad que crea el mensaje. Se admiten los siguientes valores:

  • user: indica que el mensaje lo envía una persona real, por lo general, un mensaje generado por el usuario.
  • model: indica que el modelo genera el mensaje.

parts

part

Una lista de partes ordenadas que conforman un solo mensaje.

Para límites sobre las entradas, como el número máximo de tokens o de imágenes, consulta las especificaciones del modelo en la página Modelos de Google.

Para calcular la cantidad de tokens en tu solicitud, consulta Obtén el recuento de tokens.

Piezas

Un tipo de datos que contiene contenido multimedia que forma parte de un mensaje Content de varias partes.

Parámetros

text

Opcional: string

Un mensaje de texto o un fragmento de código.

Sube conjuntos de datos de ajuste a Cloud Storage

Para ejecutar un trabajo de ajuste, debes subir uno o más conjuntos de datos a un bucket de Cloud Storage. Puedes crear un depósito de Cloud Storage nuevo o usar uno existente para almacenar archivos de conjuntos de datos. La región del bucket no es importante, pero te recomendamos que uses un bucket que se encuentre en el mismo proyecto de Google Cloud en el que planeas ajustar tu modelo.

Una vez que tu bucket esté listo, sube tu archivo del conjunto de datos al bucket.

¿Qué sigue?