Migra a los modelos de Gemini más recientes

En esta guía, se explica cómo actualizar tu aplicación a la versión más reciente de Gemini. En esta guía, se supone que tu aplicación ya usa una versión anterior de Gemini. Para aprender a comenzar a usar Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.

En esta guía, no se explica cómo cambiar tu aplicación del SDK de Vertex AI al SDK de IA generativa de Google actual. Para obtener esa información, consulta nuestra guía de migración del SDK de Vertex AI.

¿Qué cambios debo esperar?

Para actualizar la mayoría de las aplicaciones de IA generativa a la versión más reciente de Gemini, se requieren pocos cambios en el código o las instrucciones. Sin embargo, algunas aplicaciones pueden requerir ajustes rápidos. Es difícil predecir estos cambios sin probar primero tus instrucciones con la nueva versión. Se recomienda realizar pruebas exhaustivas antes de migrar por completo. Si deseas obtener sugerencias para crear instrucciones eficaces, consulta nuestra guía de estrategia de instrucciones. Usa nuestra lista de tareas para verificar el estado de las instrucciones y encontrar y corregir problemas relacionados con ellas.

Solo debes realizar cambios importantes en el código para ciertos cambios que interrumpen la compatibilidad o para usar nuevas funciones de Gemini.

¿A qué modelo de Gemini debería migrar?

El modelo de Gemini que uses dependerá de las necesidades de tu aplicación. En la siguiente tabla, se comparan los modelos anteriores de Gemini 1.5 con los modelos más recientes de Gemini:

Función 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
Etapa de lanzamiento Obsoleto Obsoleto Disponible de manera general Disponible de manera general Disponible de manera general Disponible de manera general Disponible de manera general
Modalidades de entrada
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Texto, Código, Imágenes, Audio, Video
Modalidades de salida
Texto
Texto
Texto
Texto
Texto
Texto
Texto
Ventana de contexto y límite total de tokens 2,097,152 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576
Longitud del contexto de salida 8,192 (valor predeterminado) 8,192 (valor predeterminado) 8,192 (valor predeterminado) 8,192 (valor predeterminado) 65,535 (predeterminado) 65,535 (predeterminado) 65,536 (predeterminado)
Grounding with Google Search
Llamada a función
Ejecución de código
Almacenamiento en caché del contexto
Predicción por lotes
API de Live*
Ajuste
Latencia
SDK recomendado SDK de Vertex AI SDK de Vertex AI SDK de IA generativa SDK de IA generativa SDK de IA generativa SDK de IA generativa SDK de IA generativa
Unidades de precio “Basado “Basado Token Token Token Token Token
Fecha de baja 24 de septiembre de 2025 24 de septiembre de 2025 5 de febrero de 2026 25 de febrero de 2026 17 de junio de 2026 17 de junio de 2026 22 de julio de 2026

* La API de Live está disponible como oferta de versión preliminar como parte de gemini-live-2.5-flash y gemini-live-2.5-flash-preview-native-audio.

Antes de comenzar la migración

Antes de comenzar el proceso de migración, debes tener en cuenta lo siguiente:

Aprobaciones regulatorias, de administración y de InfoSec

Obtén la aprobación de tus equipos de seguridad de la información (InfoSec), riesgo y cumplimiento con anticipación. Abarca todas las reglas específicas de riesgo y cumplimiento, en especial en industrias reguladas, como la atención médica y las finanzas.

Disponibilidad de ubicación

Los modelos de Google y de socios, y las funciones de IA generativa en Vertex AI, están disponibles a través de extremos regionales específicos y un extremo global. Los extremos globales abarcan todo el mundo y ofrecen mayor disponibilidad y confiabilidad en comparación con las regiones únicas.

La disponibilidad de extremos regionales varía según el modelo. Para obtener detalles sobre cada modelo, consulta nuestra guía de ubicaciones.

Diferencias de precios basadas en la modalidad y la tokenización

Los precios varían según el modelo de Gemini. En nuestra página de precios, se indican los costos de todas las modalidades (texto, código, imágenes, voz, etc.) por modelo.

Compra o cambia pedidos de capacidad de procesamiento aprovisionada

Si es necesario, compra más capacidad de procesamiento aprovisionada o cambia los pedidos existentes de capacidad de procesamiento aprovisionada.

Ajuste supervisado

Los modelos de Gemini más recientes ofrecen una mejor calidad de salida. Esto puede significar que tu aplicación ya no necesita un modelo ajustado. Si tu aplicación usa el ajuste supervisado con un modelo de Gemini anterior, primero prueba tu aplicación con el modelo más reciente sin ajustar y evalúa los resultados.

Si eliges usar el ajuste supervisado, no podrás transferir tu modelo ajustado existente desde versiones anteriores de Gemini. Debes ejecutar un nuevo trabajo de ajuste para la nueva versión de Gemini.

Cuando ajustes un modelo de Gemini nuevo, comienza con la configuración de ajuste predeterminada. No vuelvas a usar los valores de hiperparámetros de versiones anteriores de Gemini, ya que el servicio de ajuste está optimizado para las versiones más recientes. Es poco probable que reutilizar la configuración anterior proporcione resultados óptimos.

Pruebas de regresión

Cuando actualices a la versión más reciente de Gemini, necesitarás tres tipos principales de pruebas de regresión:

  1. Pruebas de regresión de código: Pruebas de regresión desde una perspectiva de ingeniería de software y operaciones para desarrolladores (DevOps) Este tipo de prueba de regresión siempre es obligatoria.
  2. Pruebas de regresión del rendimiento del modelo: Pruebas de regresión desde una perspectiva de ciencia de datos o aprendizaje automático. Esto significa garantizar que la nueva versión del modelo de Gemini proporcione resultados que, al menos, mantengan el mismo nivel de calidad que la versión anterior.

    Las pruebas de regresión del rendimiento del modelo son evaluaciones que se realizan cuando un sistema o su modelo subyacente cambian. Examinémoslos.

    • Pruebas de rendimiento sin conexión: Son pruebas que confirman la calidad de los resultados del modelo en un entorno de experimentación dedicado basado en varias métricas de calidad de los resultados del modelo.
    • Pruebas de rendimiento del modelo en línea: Pruebas que confirman la calidad de los resultados del modelo en una implementación en línea activa según los comentarios implícitos o explícitos de los usuarios.
  3. Pruebas de carga: Estas pruebas verifican qué tan bien la aplicación controla muchas solicitudes a la vez. Las pruebas de carga son obligatorias para las aplicaciones que usan la capacidad de procesamiento aprovisionada.

Cómo migrar a la versión más reciente

En las siguientes secciones, se describen los pasos para migrar a la versión más reciente de Gemini. Para obtener resultados óptimos, completa estos pasos en orden.

1. Requisitos de evaluación y prueba del modelo de documentos

  1. Prepárate para repetir las evaluaciones pertinentes que realizaste cuando creaste tu aplicación por primera vez, además de las evaluaciones que realizaste desde entonces.
  2. Si tus evaluaciones actuales no abarcan ni miden por completo todas las tareas que realiza tu aplicación, diseña y prepara más evaluaciones. Puedes usar nuestro manual de evaluación y nuestras recetas de evaluación para comenzar.
  3. Si tu aplicación involucra RAG, uso de herramientas, flujos de trabajo complejos de agentes o cadenas de instrucciones, asegúrate de que tus datos de evaluación existentes permitan evaluar cada componente de forma independiente. Si no es así, recopila ejemplos de entrada y salida para cada componente.
  4. Si tu aplicación es fundamental o forma parte de un sistema en tiempo real más grande orientado al usuario, incluye la evaluación en línea.

2. Realizar actualizaciones de código y ejecutar pruebas

Para actualizar tu código, debes realizar tres cambios principales:

En las siguientes secciones, se explican estos cambios con más detalle.

Actualiza al SDK de IA generativa de Google

Si tu aplicación de Gemini 1.x usa el SDK de Vertex AI, cambia al SDK de IA generativa. Consulta nuestra guía de migración del SDK de Vertex AI para obtener detalles, incluidos ejemplos de código para realizar llamadas similares con el SDK de IA generativa. Las versiones del SDK de Vertex AI posteriores a junio de 2026 no admitirán Gemini, y las nuevas funciones de Gemini solo estarán disponibles en el SDK de IA generativa.

Si no conoces el SDK de IA generativa, consulta el notebook Comienza a usar la IA generativa de Google con el SDK de IA generativa.

Cómo cambiar las llamadas de Gemini

Actualiza tu código de predicción para usar uno de los modelos de Gemini más recientes. Como mínimo, esto significa cambiar el nombre del extremo del modelo.

Los cambios exactos en el código variarán según cómo hayas compilado tu aplicación, en especial si usaste el SDK de IA generativa o el SDK de Vertex AI.

Después de realizar cambios en el código, ejecuta pruebas de regresión del código y otras pruebas de software para asegurarte de que el código funcione según lo previsto. En este paso, se verifica si el código funciona, pero no la calidad de las respuestas del modelo.

Corrige los cambios de código que generan errores

En este paso, enfócate solo en los cambios de código. Es posible que debas realizar otros cambios más adelante, pero espera hasta que comiences la evaluación. Después de realizar las evaluaciones, considera estos ajustes según los resultados de la evaluación:

  • Si cambias de la recuperación dinámica, es posible que debas ajustar las instrucciones del sistema para controlar cuándo se usa la Búsqueda de Google (por ejemplo, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Sin embargo, espera hasta que realices la evaluación antes de cambiar las instrucciones.
  • Si usaste el parámetro Top-K, ajusta otros parámetros de muestreo de tokens, como Top-P, para obtener resultados similares.

3. Ejecuta evaluaciones sin conexión

Repite las evaluaciones que realizaste cuando desarrollaste y lanzaste tu aplicación por primera vez, las evaluaciones sin conexión que se hicieron desde entonces y las evaluaciones adicionales que identificaste en el paso 1. Si aún crees que tu evaluación no abarca por completo el alcance de tu aplicación, realiza más evaluaciones.

Si no tienes una forma automatizada de ejecutar evaluaciones sin conexión, considera usar el servicio de evaluación de IA generativa.

Si tu aplicación usa el ajuste, realiza una evaluación sin conexión antes de volver a ajustar tu modelo con la versión más reciente de Gemini. Los modelos más recientes ofrecen una mejor calidad de salida, lo que puede significar que tu aplicación ya no necesita un modelo ajustado.

4. Evalúa los resultados de la evaluación y ajusta tus instrucciones y parámetros

Si la evaluación sin conexión muestra que tu aplicación no funciona con la misma eficacia, mejórala hasta que su rendimiento coincida con el del modelo anterior. Para ello, sigue estos pasos:

5. Ejecuta pruebas de carga

Si tu aplicación necesita un rendimiento mínimo determinado, realiza pruebas de carga para asegurarte de que la versión más reciente de tu aplicación cumpla con los requisitos de rendimiento.

Las pruebas de carga deben realizarse antes de la evaluación en línea, ya que esta implica exponer el modelo al tráfico real. Usa las herramientas de prueba de carga y la instrumentación existentes para este paso.

Si tu aplicación ya satisface las necesidades de capacidad de procesamiento, considera usar la capacidad de procesamiento aprovisionada. Necesitarás capacidad de procesamiento aprovisionada adicional a corto plazo para cubrir las pruebas de carga mientras tu pedido actual de capacidad de procesamiento aprovisionada controla el tráfico de producción.

6. (Opcional) Ejecuta evaluaciones en línea

Pasa a la evaluación en línea solo si la evaluación sin conexión muestra una alta calidad del resultado de Gemini y tu aplicación requiere una evaluación en línea.

La evaluación en línea es un tipo específico de prueba en línea. Intenta usar las herramientas y los métodos existentes de tu organización para la evaluación en línea. Por ejemplo:

  • Si tu organización realiza pruebas A/B con regularidad, haz una para comparar la versión actual de tu aplicación con la versión más reciente de Gemini.
  • Si tu organización usa implementaciones canary con regularidad, úsalas con los modelos más recientes y mide los cambios en el comportamiento del usuario.

También puedes realizar evaluaciones en línea agregando nuevas funciones de comentarios y medición a tu aplicación. Las diferentes aplicaciones necesitan diferentes métodos de comentarios. Por ejemplo:

  • Agregamos botones de Me gusta y No me gusta junto a los resultados del modelo, y comparamos las tasas entre un modelo anterior y los modelos de Gemini más recientes.
  • Mostrarles a los usuarios los resultados del modelo anterior y de los modelos más recientes uno al lado del otro, y pedirles que elijan su favorito
  • Realizamos un seguimiento de la frecuencia con la que los usuarios anulan o ajustan manualmente los resultados del modelo anterior en comparación con los modelos más recientes.

Estos métodos de comentarios a menudo requieren ejecutar la versión más reciente de Gemini junto con la versión existente. A veces, esta implementación paralela se denomina "modo sombra" o "implementación azul-verde".

Si los resultados de la evaluación en línea difieren mucho de los resultados de la evaluación sin conexión, tu evaluación sin conexión no captura aspectos clave del entorno en vivo ni de la experiencia del usuario. Aplica los resultados de la evaluación en línea para crear una nueva evaluación sin conexión que cubra la brecha y, luego, vuelve al paso 3.

Si usas la capacidad de procesamiento aprovisionada, es posible que debas comprar capacidad de procesamiento aprovisionada adicional a corto plazo para seguir satisfaciendo tus requisitos de capacidad de procesamiento para los usuarios en la evaluación en línea.

7. Implementar en producción

Una vez que la evaluación muestre que el modelo de Gemini más reciente funciona igual o mejor que un modelo anterior, reemplaza la versión existente de la aplicación por la nueva. Sigue los procedimientos estándar de tu organización para el lanzamiento de producción.

Si usas la capacidad de procesamiento aprovisionada, cambia el pedido de capacidad de procesamiento aprovisionada al modelo de Gemini que elegiste. Si implementas tu aplicación de forma incremental, usa la capacidad de procesamiento aprovisionada a corto plazo para satisfacer las necesidades de capacidad de procesamiento de dos modelos de Gemini diferentes.

Mejora el rendimiento del modelo

A medida que realices la migración, aplica estos consejos para lograr un rendimiento óptimo con el modelo de Gemini que elijas:

  • Verifica tus instrucciones del sistema, instrucciones y ejemplos de aprendizaje con pocos ejemplos para detectar inconsistencias, contradicciones o instrucciones y ejemplos irrelevantes.
  • Probar un modelo más potente Por ejemplo, si evaluaste Gemini 2.0 Flash-Lite, prueba Gemini 2.0 Flash.
  • Revisa los resultados de la evaluación automatizada para asegurarte de que coincidan con el criterio humano, en especial los resultados que utilizan un modelo de juez. Asegúrate de que las instrucciones de tu modelo de juez sean claras, coherentes y precisas.
  • Para mejorar las instrucciones del modelo de juez, prueba las instrucciones con varias personas que trabajen de forma aislada. Si los seres humanos interpretan las instrucciones de manera diferente y brindan juicios distintos, las instrucciones de tu modelo de juez no son claras.
  • Ajusta el modelo.
  • Examina los resultados de la evaluación para detectar patrones que muestren tipos específicos de errores. Agrupar los errores por modelo, tipo o categoría proporciona datos de evaluación más específicos, lo que facilita el ajuste de las instrucciones para corregir estos errores.
  • Asegúrate de evaluar los diferentes componentes de la IA generativa de forma independiente.
  • Experimenta con el ajuste de los parámetros de muestreo de tokens.

Obtén ayuda

Si necesitas asistencia, Google Cloud ofrece paquetes de asistencia para satisfacer tus necesidades, como asistencia telefónica, cobertura las 24 horas, todos los días y acceso a un administrador de asistencia técnica. Para obtener más información, consulta Asistencia deGoogle Cloud .

¿Qué sigue?