Acerca del ajuste supervisado para los modelos de Gemini

El ajuste supervisado es una buena opción cuando tienes una tarea bien definida con datos etiquetados disponibles. Es particularmente eficaz para aplicaciones específicas de dominio en las que el lenguaje o el contenido difieren de manera significativa de los datos en los que se entrenó el modelo grande en un principio. Puedes ajustar los tipos de datos de texto, imagen, audio y documento.

El ajuste fino supervisado adapta el comportamiento del modelo con un conjunto de datos etiquetado. Este proceso ajusta las ponderaciones del modelo para minimizar la diferencia entre sus predicciones y las etiquetas reales. Por ejemplo, puede mejorar el rendimiento del modelo para los siguientes tipos de tareas:

  • Clasificación
  • Resúmenes
  • Búsqueda de respuestas de extracción
  • Chat

Para ver un análisis de los principales casos de uso del ajuste, consulta la entrada de blog Cientos de organizaciones ajustan los modelos de Gemini. Estos son sus casos de uso favoritos.

Para obtener más información, consulta Cuándo usar el ajuste supervisado para Gemini.

Modelos compatibles

Los siguientes modelos de Gemini admiten el ajuste supervisado:

En el caso de los modelos que admiten la función de pensamiento, sugerimos que establezcas el presupuesto de pensamiento en el valor más bajo o que lo desactives. Esto puede mejorar el rendimiento y reducir los costos de las tareas ajustadas. Durante el ajuste fino supervisado, el modelo aprende de los datos de entrenamiento y omite el proceso de pensamiento. Por lo tanto, el modelo ajustado resultante puede realizar tareas ajustadas de manera eficaz sin un presupuesto de pensamiento.

Limitaciones

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Especificación Valor
Cantidad máxima de tokens de entrenamiento de entrada y salida 131,072
Cantidad máxima de tokens de entrada y salida para la entrega Es igual que el modelo de Gemini básico.
Tamaño máximo del conjunto de datos de validación 5,000 ejemplos
Tamaño máximo del archivo del conjunto de datos de entrenamiento 1 GB para JSONL
Tamaño máximo del conjunto de datos de entrenamiento 1 millón de ejemplos solo de texto o 300,000 ejemplos multimodales
Tamaño del adaptador Los valores admitidos son 1, 2, 4, 8 y 16.

Gemini 2.5 Pro

Especificación Valor
Cantidad máxima de tokens de entrenamiento de entrada y salida 131,072
Cantidad máxima de tokens de entrada y salida para la entrega Es igual que el modelo de Gemini básico.
Tamaño máximo del conjunto de datos de validación 5,000 ejemplos
Tamaño máximo del archivo del conjunto de datos de entrenamiento 1 GB para JSONL
Tamaño máximo del conjunto de datos de entrenamiento 1 millón de ejemplos solo de texto o 300,000 ejemplos multimodales
Tamaño del adaptador Los valores admitidos son 1, 2, 4 y 8.

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificación Valor
Cantidad máxima de tokens de entrenamiento de entrada y salida 131,072
Cantidad máxima de tokens de entrada y salida para la entrega Es igual que el modelo de Gemini básico.
Tamaño máximo del conjunto de datos de validación 5,000 ejemplos
Tamaño máximo del archivo del conjunto de datos de entrenamiento 1 GB para JSONL
Tamaño máximo del conjunto de datos de entrenamiento 1 millón de ejemplos solo de texto o 300,000 ejemplos multimodales
Tamaño del adaptador Los valores admitidos son 1, 2, 4 y 8.

Problemas conocidos

  • Aplicar la generación controlada cuando se envían solicitudes de inferencia a modelos de Gemini ajustados puede generar una disminución en la calidad del modelo debido a la falta de alineación de los datos durante el ajuste y el tiempo de inferencia. Durante el ajuste, no se aplica la generación controlada, por lo que el modelo ajustado no puede controlar bien la generación en el momento de la inferencia. El ajuste supervisado personaliza el modelo de manera eficaz para generar resultados estructurados. Por lo tanto, no es necesario que apliques la generación controlada cuando realices solicitudes de inferencia en modelos ajustados.

Casos de uso para usar la optimización supervisada

Los modelos de base funcionan bien cuando el resultado o la tarea esperados se pueden definir de forma clara y concisa en un mensaje y el mensaje produce el resultado esperado de manera coherente. Si deseas que un modelo aprenda algo específico o que se desvíe de los patrones generales, deberías considerar ajustar ese modelo. Por ejemplo, puedes usar el ajuste de modelos para enseñarle al modelo lo siguiente:

  • Estructuras o formatos específicos para generar salidas.
  • Comportamientos específicos, como cuándo proporcionar una salida tersa o verbosa.
  • Salidas específicas personalizadas para tipos específicos de entradas.

Los siguientes ejemplos son casos prácticos que son difíciles de capturar solo con instrucciones rápidas:

  • Clasificación: La respuesta esperada es una palabra o frase específica.

    El ajuste del modelo puede ayudar a evitar que el modelo genere respuestas detalladas.

  • Resumen: El resumen sigue un formato específico. Por ejemplo, es posible que debas quitar la información de identificación personal (PII) de un resumen de chat.

    Este formato de reemplazo de los nombres de los interlocutores con #Person1 y #Person2 es difícil de describir y el modelo de base podría no producir esa respuesta de forma natural.

  • Respuestas extractivas: La pregunta se relaciona con un contexto, y la respuesta es una substring del contexto.

    La respuesta "Último máximo glacial" (Last Glacial Maximum) es una frase específica del contexto.

  • Chat: Necesitas personalizar la respuesta del modelo para seguir a una persona, un rol o un carácter.

También puedes ajustar un modelo en las siguientes situaciones:

  • Los mensajes no producen los resultados esperados de forma coherente.
  • La tarea es demasiado complicada para definirla en una instrucción. Por ejemplo, deseas que el modelo clone el comportamiento para un comportamiento que es difícil de articular en una instrucción.
  • Tienes intuiciones complejas sobre una tarea que son difíciles de formalizar en una instrucción.
  • Quieres quitar la longitud de contexto para quitar los ejemplos de tomas.

Configura una región de trabajo de ajuste

Los datos del usuario, como el conjunto de datos transformado y el modelo ajustado, se almacenan en la región del trabajo de ajuste. Durante el ajuste, el cálculo se puede descargar en otras regiones US o EU para los aceleradores disponibles. La descarga es transparente para los usuarios.

  • Si usas el SDK de Vertex AI, puedes especificar la región durante la inicialización. Por ejemplo:

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Si creas un trabajo de ajuste supervisado a través del envío de una solicitud POST con el método tuningJobs.create, usa la URL para especificar la región en la que se ejecuta el trabajo de ajuste. Por ejemplo, en la siguiente URL, reemplaza ambas instancias de TUNING_JOB_REGION por la región donde se ejecuta el trabajo para especificar una región.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Si usas la consola deGoogle Cloud , puedes seleccionar el nombre de la región en el campo desplegable Región en la página Detalles del modelo. Esta es la misma página en la que seleccionas el modelo base y un nombre de modelo ajustado.

Cómo evaluar los modelos ajustados

Puedes evaluar los modelos ajustados de las siguientes maneras:

  • Métricas de ajuste y validación: Evalúa el modelo ajustado con métricas de ajuste y validación después de que se complete el trabajo de ajuste.

  • Evaluación integrada con Gen AI Evaluation Service (versión preliminar): Configura trabajos de ajuste para ejecutar evaluaciones automáticamente con Gen AI Evaluation Service durante el ajuste. Las siguientes interfaces, modelos y regiones son compatibles con la integración del ajuste con el servicio de evaluación de IA generativa:

    • Interfaces compatibles: SDK de IA generativa de Google y API de REST.

    • Modelos compatibles: gemini-2.5-pro, gemini-2.5-flash y gemini-2.5-flash-lite.

    • Regiones admitidas: Para obtener una lista de las regiones admitidas, consulta Regiones admitidas.

Cuota

La cuota se aplica a la cantidad de trabajos de ajuste simultáneos. Cada proyecto viene con una cuota predeterminada para ejecutar al menos un trabajo de ajuste. Esta es una cuota global, que se comparte en todas las regiones y modelos compatibles disponibles. Si necesitas ejecutar más trabajos de forma simultánea, debes solicitar una cuota adicional para Global concurrent tuning jobs.

Si configuras el servicio de evaluación de IA generativa para que ejecute evaluaciones automáticamente durante el ajuste, consulta las cuotas del servicio de evaluación de IA generativa.

Precios

Puedes encontrar los precios del ajuste fino supervisado de Gemini aquí: Precios de Vertex AI.

La cantidad de tokens de entrenamiento se calcula multiplicando la cantidad de tokens en tu conjunto de datos de entrenamiento por la cantidad de épocas. Después del ajuste, se siguen aplicando los costos de inferencia (solicitud de predicción) para el modelo ajustado. Los precios de inferencia son los mismos para cada versión estable de Gemini. Para obtener más información, consulta Versiones disponibles del modelo estable de Gemini.

Si configuras el servicio de evaluación de IA generativa para que se ejecute automáticamente durante el ajuste, las evaluaciones se cobran como trabajos de predicción por lotes. Para obtener más información, consulta Precios.

¿Qué sigue?