Se usó la API de Cloud Translation para traducir esta página.

Prepara datos de ajuste fino supervisado para modelos de Gemini

En este documento, se describe cómo definir un conjunto de datos de ajuste supervisado para un modelo de Gemini. Puedes ajustar los tipos de datos de texto, imagen, audio y documento.

Acerca de los conjuntos de datos de ajuste supervisado

Se usa un conjunto de datos de ajuste supervisado para ajustar un modelo previamente entrenado a una tarea o dominio específico. Los datos de entrada deben ser similares a los que esperas que el modelo encuentre en el uso real. Las etiquetas de salida deben representar las respuestas o los resultados correctos para cada entrada.

Conjunto de datos de entrenamiento

Para ajustar un modelo, debes proporcionar un conjunto de datos de entrenamiento. Para obtener mejores resultados, te recomendamos que comiences con 100 ejemplos. Si es necesario, puedes aumentar la cantidad de ejemplos a miles. La calidad del conjunto de datos es mucho más importante que la cantidad.

Conjunto de datos de validación

Te recomendamos que proporciones un conjunto de datos de validación. Un conjunto de datos de validación te ayuda a medir la eficacia de un trabajo de ajuste.

Limitaciones

Para conocer las limitaciones de los conjuntos de datos, como la cantidad máxima de tokens de entrada y salida, el tamaño máximo del conjunto de datos de validación y el tamaño máximo del archivo del conjunto de datos de entrenamiento, consulta Acerca del ajuste fino supervisado para los modelos de Gemini.

Formato del conjunto de datos

Se admiten los siguientes formatos de datos:

Conjunto de datos multimodales en Vertex AI (vista previa).
Formato JSON Lines (JSONL), en el que cada línea contiene un solo ejemplo de ajuste. Antes de ajustar tu modelo, debes subir tu conjunto de datos a un bucket de Cloud Storage.

Ejemplo de conjunto de datos para Gemini

{
  "systemInstruction": {
    "role": string,
    "parts": [
      {
        "text": string
      }
    ]
  },
  "contents": [
    {
      "role": string,
      "parts": [
        {
          // Union field data can be only one of the following:
          "text": string,
          "fileData": {
            "mimeType": string,
            "fileUri": string
          }
        }
      ]
    }
  ]
}

Parámetros

El ejemplo contiene datos con los siguientes parámetros:

Parámetros

Parámetros
`contents`	Obligatorio: `Content` El contenido de la conversación actual con el modelo. Para consultas de un solo turno, esta es una instancia única. Para las consultas de varios turnos, este es un campo repetido que contiene el historial de conversaciones y la solicitud más reciente.
`systemInstruction`	Opcional: `Content` Consulta Modelos compatibles. Instrucciones para que el modelo mejore su rendimiento. Por ejemplo, "Responde de la forma más concisa posible" o "No uses términos técnicos en tu respuesta". Las cadenas `text` se contabilizan para el límite de tokens. El campo `role` de `systemInstruction` se ignora y no afecta el rendimiento del modelo. Nota: Solo se debe usar `text` en `parts`, y el contenido de cada `part` debe estar en un párrafo independiente.
`tools`	Opcional. Un fragmento de código que permite que el sistema interactúe con sistemas externos para realizar una acción, o un conjunto de acciones, fuera del conocimiento y del alcance del modelo. Consulta Llamadas a funciones.

contents

Obligatorio: Content

El contenido de la conversación actual con el modelo.

Para consultas de un solo turno, esta es una instancia única. Para las consultas de varios turnos, este es un campo repetido que contiene el historial de conversaciones y la solicitud más reciente.

systemInstruction

Opcional: Content

Consulta Modelos compatibles.

Instrucciones para que el modelo mejore su rendimiento. Por ejemplo, "Responde de la forma más concisa posible" o "No uses términos técnicos en tu respuesta".

Las cadenas text se contabilizan para el límite de tokens.

El campo role de systemInstruction se ignora y no afecta el rendimiento del modelo.

Nota: Solo se debe usar text en parts, y el contenido de cada part debe estar en un párrafo independiente.

tools

Opcional. Un fragmento de código que permite que el sistema interactúe con sistemas externos para realizar una acción, o un conjunto de acciones, fuera del conocimiento y del alcance del modelo. Consulta Llamadas a funciones.

Contenido

El tipo de datos estructurados base que incluye contenido de varias partes de un mensaje.

Esta clase consta de dos propiedades principales: role y parts. La propiedad role denota la persona que produce el contenido, mientras que la propiedad parts contiene varios elementos, cada uno de los cuales representa un segmento de datos dentro de un mensaje.

Parámetros

Parámetros
`role`	Opcional: `string` La identidad de la entidad que crea el mensaje. Se admiten los siguientes valores: `user`: indica que el mensaje lo envía una persona real, por lo general, un mensaje generado por el usuario. `model`: indica que el modelo genera el mensaje. El valor `model` se usa para insertar mensajes del modelo en la conversación durante las conversaciones de varios turnos. En el caso de las conversaciones que no tengan varios turnos, este campo se puede dejar en blanco o sin configurar.
`parts`	`part` Una lista de partes ordenadas que conforman un solo mensaje. Es posible que las diferentes partes tengan distintos tipos de MIME de IANA. Para límites sobre las entradas, como el número máximo de tokens o de imágenes, consulta las especificaciones del modelo en la página Modelos de Google. Para calcular la cantidad de tokens en tu solicitud, consulta Obtén el recuento de tokens.

role

Opcional: string

La identidad de la entidad que crea el mensaje. Se admiten los siguientes valores:

user: indica que el mensaje lo envía una persona real, por lo general, un mensaje generado por el usuario.
model: indica que el modelo genera el mensaje.

El valor model se usa para insertar mensajes del modelo en la conversación durante las conversaciones de varios turnos.

En el caso de las conversaciones que no tengan varios turnos, este campo se puede dejar en blanco o sin configurar.

parts

part

Una lista de partes ordenadas que conforman un solo mensaje. Es posible que las diferentes partes tengan distintos tipos de MIME de IANA.

Para límites sobre las entradas, como el número máximo de tokens o de imágenes, consulta las especificaciones del modelo en la página Modelos de Google.

Para calcular la cantidad de tokens en tu solicitud, consulta Obtén el recuento de tokens.

Partes

Un tipo de datos que contiene contenido multimedia que forma parte de un mensaje Content de varias partes.

Parámetros
`text`	Opcional: `string` Un mensaje de texto o un fragmento de código.
`fileData`	Opcional: `fileData` Datos almacenados en un archivo.
`functionCall`	Opcional: `FunctionCall`. Contiene una cadena que representa el campo `FunctionDeclaration.name` y un objeto JSON estructurado que contiene cualquier parámetro para la llamada a función que predijo el modelo. Consulta Llamadas a funciones.
`functionResponse`	Opcional: `FunctionResponse`. La salida del resultado de una `FunctionCall` que contiene una cadena que representa el campo `FunctionDeclaration.name` y un objeto JSON estructurado que contiene cualquier resultado de la llamada a función. Se usa como contexto para el modelo. Consulta Llamadas a funciones.

Prácticas recomendadas

Mantén la coherencia con los datos de producción

Los ejemplos en tu conjunto de datos deben coincidir con tu tráfico de producción esperado. Si tu conjunto de datos contiene formato, palabras clave, instrucciones o información específicas, los datos de producción deben tener el mismo formato y contener las mismas instrucciones.

Por ejemplo, si los ejemplos de tu conjunto de datos incluyen una "question:" y un "context:", el tráfico de producción también debe tener el formato de modo que incluya una "question:" y un "context:" en el mismo orden en que aparecen en ejemplos de conjuntos de datos. Si excluyes el contexto, el modelo no reconocerá el patrón, incluso si la pregunta exacta estaba en un ejemplo en el conjunto de datos.

Sube conjuntos de datos de ajuste a Cloud Storage

Para ejecutar un trabajo de ajuste, debes subir uno o más conjuntos de datos a un bucket de Cloud Storage. Puedes crear un depósito de Cloud Storage nuevo o usar uno existente para almacenar archivos de conjuntos de datos. La región del bucket no es importante, pero te recomendamos que uses un bucket que se encuentre en el mismo proyecto deGoogle Cloud en el que planeas ajustar tu modelo.

Una vez que tu bucket esté listo, sube tu archivo del conjunto de datos al bucket.

Sigue las prácticas recomendadas para el diseño de instrucciones

Una vez que tengas tu conjunto de datos de entrenamiento y hayas entrenado el modelo, es hora de diseñar instrucciones. Es importante seguir la práctica recomendada del diseño de instrucciones en tu conjunto de datos de entrenamiento para brindar una descripción detallada de la tarea que se debe realizar y cómo debería verse el resultado.

¿Qué sigue?

Elige una región para ajustar un modelo.
Para obtener información sobre cómo se puede usar el ajuste supervisado en una solución que compila una base de conocimiento de IA generativa, consulta Solución de inicio rápido: base de conocimiento de IA generativa.