Ajuste de texto

En esta página se describen los requisitos previos y las instrucciones detalladas para ajustar Gemini con datos de texto mediante el aprendizaje supervisado. Para ver ejemplos de ajuste de texto de casos prácticos de clasificación, análisis de sentimiento y extracción, consulta Ajuste de modelos de texto de Gemini.

Casos prácticos

El ajuste fino te permite adaptar los modelos base de Gemini a tareas especializadas. Estos son algunos casos prácticos de texto:

  • Extraer información estructurada de las conversaciones: transforma conversaciones de varias interacciones en datos organizados ajustando un modelo para identificar atributos clave y mostrarlos en un formato estructurado, como JSONL.
  • Categorización de documentos: ajusta un modelo para clasificar con precisión documentos extensos en categorías predefinidas, lo que permite organizar y recuperar información de forma eficiente.
  • Seguimiento de instrucciones: mejora la capacidad de un modelo para comprender y ejecutar instrucciones, lo que permite completar las tareas de forma más precisa y fiable.
  • Revisión de código automatizada: usa el ajuste fino para crear un modelo capaz de proporcionar revisiones de código útiles, identificar posibles problemas y sugerir mejoras.
  • Resúmenes: genera resúmenes concisos e informativos de textos largos afinando un modelo para que capte la esencia del contenido.
  • Generación de código y DSL: afina un modelo para generar código en varios lenguajes de programación o lenguajes específicos de un dominio (DSL), lo que automatiza las tareas de programación repetitivas.
  • Rendimiento de RAG mejorado: mejora la utilidad y la precisión de los sistemas de generación aumentada por recuperación (RAG) perfeccionando el modelo de lenguaje subyacente.

Formato del conjunto de datos

El fileUri de tu conjunto de datos puede ser el URI de un archivo de un segmento de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.

A continuación, se muestra un ejemplo de un conjunto de datos de texto.

Para ver un ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Conjuntos de datos de ejemplo

Puedes usar los siguientes conjuntos de datos de muestra para aprender a ajustar un modelo de Gemini. Para usar estos conjuntos de datos, especifica los URIs en los parámetros correspondientes al crear una tarea de ajuste fino supervisado de un modelo de texto.

Para usar el conjunto de datos de ajuste de ejemplo, especifica su ubicación de la siguiente manera:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

Para usar el conjunto de datos de validación de muestra, especifica su ubicación de la siguiente manera:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

Siguientes pasos