Esta página se ha traducido con Cloud Translation API.

Preparar datos de ajuste fino supervisado para modelos LLM de traducción

En este documento se describe cómo definir un conjunto de datos de ajuste fino supervisado para un modelo LLM de traducción. Puedes ajustar los tipos de datos de texto.

Acerca de los conjuntos de datos de ajuste fino supervisado

Un conjunto de datos de ajuste fino supervisado se usa para ajustar un modelo preentrenado a un dominio específico. Los datos de entrada deben ser similares a los que esperas que el modelo encuentre en el mundo real. Las etiquetas de salida deben representar las respuestas o los resultados correctos de cada entrada.

Conjunto de datos de entrenamiento

Para ajustar un modelo, debes proporcionar un conjunto de datos de entrenamiento. Para obtener los mejores resultados, te recomendamos que empieces con 100 ejemplos. Puedes ampliar la escala a miles de ejemplos si es necesario. La calidad del conjunto de datos es mucho más importante que la cantidad.

Limitaciones:

Número máximo de tokens de entrada y salida por ejemplo: 1000
Tamaño máximo del archivo del conjunto de datos de entrenamiento: hasta 1 GB para JSONL.

Conjunto de datos de validación

Te recomendamos que proporciones un conjunto de datos de validación. Un conjunto de datos de validación te ayuda a medir la eficacia de un trabajo de ajuste.

Limitaciones:

Número máximo de tokens de entrada y salida por ejemplo: 1000
Número máximo de ejemplos en el conjunto de datos de validación: 1024
Tamaño máximo del archivo del conjunto de datos de entrenamiento: hasta 1 GB para JSONL.

Formato del conjunto de datos

El conjunto de datos de ajuste del modelo debe estar en formato JSON Lines (JSONL), donde cada línea contiene un solo ejemplo de ajuste. Antes de optimizar tu modelo, debes subir tu conjunto de datos a un segmento de Cloud Storage. Asegúrate de subirlo a us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parámetros

El ejemplo contiene datos con los siguientes parámetros:

Parámetros

Parámetros
`contents`	Obligatorio: `Content` El contenido de la conversación actual con el modelo. En el caso de las consultas de un solo turno, se trata de una sola instancia.

contents

Obligatorio: Content

El contenido de la conversación actual con el modelo.

En el caso de las consultas de un solo turno, se trata de una sola instancia.

Ejemplo de conjunto de datos de `translation-llm-002`

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Contenido

Tipo de datos estructurados base que contiene el contenido de varias partes de un mensaje.

Esta clase consta de dos propiedades principales: role y parts. La propiedad role indica la persona que produce el contenido, mientras que la propiedad parts contiene varios elementos, cada uno de los cuales representa un segmento de datos de un mensaje.

Parámetros

Parámetros
`role`	Opcional: `string` La identidad de la entidad que crea el mensaje. Se admiten los siguientes valores: `user`: indica que el mensaje lo ha enviado una persona real, normalmente un usuario. `model`: indica que el mensaje lo ha generado el modelo.
`parts`	`part` Lista de partes ordenadas que componen un único mensaje. Para consultar los límites de las entradas, como el número máximo de tokens o el número de imágenes, consulta las especificaciones del modelo en la página Modelos de Google. Para calcular el número de tokens de tu solicitud, consulta Obtener el recuento de tokens.

role

Opcional: string

La identidad de la entidad que crea el mensaje. Se admiten los siguientes valores:

user: indica que el mensaje lo ha enviado una persona real, normalmente un usuario.
model: indica que el mensaje lo ha generado el modelo.

parts

part

Lista de partes ordenadas que componen un único mensaje.

Para consultar los límites de las entradas, como el número máximo de tokens o el número de imágenes, consulta las especificaciones del modelo en la página Modelos de Google.

Para calcular el número de tokens de tu solicitud, consulta Obtener el recuento de tokens.

Partes

Tipo de datos que contiene contenido multimedia que forma parte de un mensaje Content de varias partes.

Parámetros

Parámetros
`text`	Opcional: `string` Una petición de texto o un fragmento de código.

text

Opcional: string

Una petición de texto o un fragmento de código.

Subir conjuntos de datos de ajuste a Cloud Storage

Para ejecutar una tarea de ajuste, debes subir uno o varios conjuntos de datos a un segmento de Cloud Storage. Puedes crear un segmento de Cloud Storage o usar uno que ya tengas para almacenar los archivos del conjunto de datos. La región del contenedor no importa, pero te recomendamos que uses un contenedor que esté en el mismo proyectoGoogle Cloud en el que quieras ajustar tu modelo.

Cuando el segmento esté listo, suba el archivo del conjunto de datos al segmento.