Esta página se ha traducido con Cloud Translation API.

Migrar a los modelos de Gemini más recientes

En esta guía se explica cómo actualizar tu aplicación a la versión más reciente de Gemini. En esta guía se da por hecho que tu aplicación ya usa una versión anterior de Gemini. Para saber cómo empezar a usar Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.

En esta guía no se explica cómo cambiar tu aplicación del SDK de Vertex AI al SDK de IA generativa de Google actual. Para obtener esa información, consulta nuestra guía de migración del SDK de Vertex AI.

¿Qué cambios debo esperar?

Para actualizar la mayoría de las aplicaciones de IA generativa a la última versión de Gemini, no es necesario hacer muchos cambios en el código o en las peticiones. Sin embargo, es posible que algunas aplicaciones requieran ajustes en las peticiones. Es difícil predecir estos cambios sin probar primero tus peticiones con la nueva versión. Recomendamos hacer pruebas exhaustivas antes de completar la migración. Si quieres obtener consejos sobre cómo crear peticiones eficaces, consulta nuestra guía de estrategias para peticiones. Consulta nuestra lista de comprobación de la salud de las peticiones para encontrar y solucionar problemas con las peticiones.

Solo tienes que hacer cambios importantes en el código para determinados cambios incompatibles o para usar las nuevas funciones de Gemini.

¿A qué modelo de Gemini debo migrar?

El modelo de Gemini que uses dependerá de las necesidades de tu aplicación. En la siguiente tabla se comparan los modelos antiguos de Gemini 1.5 con los modelos de Gemini más recientes:

Función	1.5 Pro	1.5 Flash	2.0 Flash	2.0 Flash-Lite	2.5 Pro	2.5 Flash	2.5 Flash-Lite
Fase de lanzamiento	Ya me he jubilado.	Ya me he jubilado.	Disponible de forma general	Disponible de forma general	Disponible de forma general	Disponible de forma general	Disponible de forma general
Modalidades de entrada	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo	Texto, Código, Imágenes, Audio, Vídeo
Modalidades de salida	Texto	Texto	Texto	Texto	Texto	Texto	Texto
Ventana de contexto y límite total de tokens	2.097.152	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576
Longitud del contexto de salida	8192 (predeterminado)	8192 (predeterminado)	8192 (predeterminado)	8192 (predeterminado)	65.535 (predeterminado)	65.535 (predeterminado)	65.536 (predeterminado)
Fundamentación con la Búsqueda de Google
Llamadas a funciones
Ejecución de código
Almacenamiento en caché de contexto
Predicción por lotes
API Live^*
Ajuste fino
Latencia
SDK recomendado	SDK de Vertex AI	SDK de Vertex AI	SDK de Gen AI	SDK de Gen AI	SDK de Gen AI	SDK de Gen AI	SDK de Gen AI
Unidades de precio	Carácter	Carácter	Token	Token	Token	Token	Token
Fecha de retirada	24 de septiembre del 2025	24 de septiembre del 2025	5 de febrero del 2026	25 de febrero del 2026	17 de junio del 2026	17 de junio del 2026	22 de julio del 2026

^* La API Live está disponible como oferta de vista previa como parte de gemini-live-2.5-flash y gemini-live-2.5-flash-preview-native-audio.

Antes de empezar la migración

Antes de iniciar el proceso de migración, debes tener en cuenta lo siguiente:

Seguridad de la información (InfoSec), gobernanza y aprobaciones reglamentarias
Disponibilidad de la ubicación
Diferencias de precios según la modalidad y la tokenización
Comprar o cambiar pedidos de Provisioned Throughput
Ajuste fino supervisado
Pruebas de regresión

Seguridad de la información, gobernanza y aprobaciones normativas

Obtén las aprobaciones de tus equipos de seguridad de la información (InfoSec), riesgos y cumplimiento con antelación. Cubre cualquier riesgo y norma de cumplimiento específicos, sobre todo en sectores regulados como el sanitario y el financiero.

Disponibilidad de la ubicación

Los modelos de Google y de partners, así como las funciones de IA generativa de Vertex AI, están disponibles a través de endpoints regionales específicos y un endpoint global. Los endpoints globales cubren todo el mundo y ofrecen una mayor disponibilidad y fiabilidad en comparación con las regiones únicas.

La disponibilidad de los endpoints regionales varía según el modelo. Para obtener información sobre cada modelo, consulta nuestra guía de ubicaciones.

Diferencias de precios basadas en la modalidad y la tokenización

Los precios varían en función del modelo de Gemini. En nuestra página de precios se indican los costes de todas las modalidades (texto, código, imágenes, voz, etc.) por modelo.

Comprar o cambiar pedidos de rendimiento aprovisionado

Si es necesario, compra más Provisioned Throughput o cambia los pedidos de Provisioned Throughput que ya tengas.

Afinamiento supervisado

Los modelos de Gemini más recientes ofrecen una mejor calidad de los resultados. Esto puede significar que tu aplicación ya no necesita un modelo ajustado. Si tu aplicación usa ajuste fino supervisado con un modelo de Gemini anterior, primero prueba tu aplicación con el modelo más reciente sin ajuste fino y evalúa los resultados.

Si decides usar el ajuste fino supervisado, no podrás mover tu modelo ajustado de versiones anteriores de Gemini. Debes ejecutar un nuevo trabajo de ajuste para la nueva versión de Gemini.

Cuando ajustes un nuevo modelo de Gemini, empieza con los ajustes predeterminados. No reutilices los valores de los hiperparámetros de versiones anteriores de Gemini, ya que el servicio de ajuste se ha optimizado para las versiones más recientes. Es poco probable que obtengas resultados óptimos si reutilizas la configuración antigua.

Pruebas de regresión

Cuando actualices a la versión más reciente de Gemini, necesitarás tres tipos principales de pruebas de regresión:

Pruebas de regresión de código: pruebas de regresión desde el punto de vista de la ingeniería de software y las operaciones de desarrollo (DevOps). Este tipo de prueba de regresión es obligatorio.
Pruebas de regresión del rendimiento del modelo: pruebas de regresión desde una perspectiva de ciencia de datos o aprendizaje automático. Esto significa asegurarse de que la nueva versión del modelo Gemini proporcione resultados que, al menos, mantengan el mismo nivel de calidad que la versión anterior.

Las pruebas de regresión del rendimiento de los modelos son evaluaciones de modelos que se realizan cuando cambia un sistema o su modelo subyacente. Entre ellos se incluyen los siguientes:
- Pruebas de rendimiento sin conexión: pruebas que afirman la calidad de las salidas del modelo en un entorno de experimentación específico basado en varias métricas de calidad de las salidas del modelo.
- Pruebas de rendimiento de modelos online: pruebas que afirman la calidad de los resultados de los modelos en una implementación online en directo basada en comentarios de los usuarios implícitos o explícitos.
Pruebas de carga: estas pruebas comprueban cómo gestiona la aplicación muchas solicitudes a la vez. Las pruebas de carga son obligatorias para las aplicaciones que usan Throughput aprovisionado.

Cómo migrar a la versión más reciente

En las siguientes secciones se describen los pasos para migrar a la versión más reciente de Gemini. Para obtener resultados óptimos, sigue estos pasos en el orden indicado.

1. Documentar los requisitos de evaluación y prueba de modelos

Prepárate para repetir las evaluaciones pertinentes que hayas realizado cuando creaste la aplicación por primera vez, así como las que hayas hecho desde entonces.
Si las evaluaciones actuales no cubren o miden todas las tareas que realiza tu aplicación, diseña y prepara más evaluaciones. Puedes usar nuestro manual de evaluación y nuestras recetas de evaluación para empezar.
Si tu aplicación implica RAG, uso de herramientas, flujos de trabajo de agentes complejos o cadenas de peticiones, asegúrate de que los datos de evaluación que ya tengas te permitan evaluar cada componente de forma independiente. Si no es así, recopila ejemplos de entrada y salida de cada componente.
Si tu aplicación es fundamental o forma parte de un sistema en tiempo real más grande orientado al usuario, incluye la evaluación online.

2. Actualizar el código y hacer pruebas

Para actualizar el código, debe hacer tres cambios principales:

Actualizar al SDK de Gen AI de Google
Cambiar las llamadas de Gemini
Corregir cambios en el código que provocan errores

En las siguientes secciones se explican estos cambios con más detalle.

Actualizar al SDK de IA generativa de Google

Si tu aplicación de Gemini 1.x usa el SDK de Vertex AI, cambia al SDK de IA generativa. Consulta nuestra guía de migración del SDK de Vertex AI para obtener más información, incluidos ejemplos de código para hacer llamadas similares con el SDK de IA generativa. Las versiones del SDK de Vertex AI posteriores a junio del 2026 no serán compatibles con Gemini, y las nuevas funciones de Gemini solo estarán disponibles en el SDK de IA generativa.

Si no has usado antes el SDK de IA generativa, consulta el cuaderno Empezar a usar la IA generativa de Google con el SDK de IA generativa.

Cambiar tus llamadas de Gemini

Actualiza tu código de predicción para usar uno de los modelos de Gemini más recientes. Como mínimo, esto implica cambiar el nombre del endpoint del modelo.

Los cambios exactos en el código variarán en función de cómo hayas creado tu aplicación, sobre todo si has usado el SDK de IA generativa o el SDK de Vertex AI.

Después de hacer cambios en el código, ejecuta pruebas de regresión del código y otras pruebas de software para asegurarte de que el código funciona correctamente. En este paso se comprueba si el código funciona, pero no la calidad de las respuestas del modelo.

Corregir cambios en el código que provocan errores

Recuperación dinámica: cambia a Fundamentación con la Búsqueda de Google. Esta función requiere el SDK de IA generativa y no es compatible con el SDK de Vertex AI.
Filtros de contenido: ten en cuenta los ajustes predeterminados de los filtros de contenido. Cambia el código si depende de un valor predeterminado que ha cambiado.
Parámetro de muestreo de tokens Top-K: Los modelos posteriores a gemini-1.0-pro-vision no admiten cambios en el parámetro Top-K.

En este paso, céntrate solo en los cambios de código. Es posible que tengas que hacer otros cambios más adelante, pero espera hasta que empieces la evaluación. Después de las evaluaciones, ten en cuenta estos ajustes en función de los resultados:

Si vas a cambiar de la recuperación dinámica, puede que tengas que ajustar las instrucciones del sistema para controlar cuándo se usa la Búsqueda de Google (por ejemplo, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Sin embargo, espera a hacer una evaluación antes de cambiar las peticiones.
Si has usado el parámetro Top-K, ajusta otros parámetros de muestreo de tokens, como Top-P, para obtener resultados similares.

3. Hacer evaluaciones sin conexión

Repite las evaluaciones que realizaste cuando desarrollaste y lanzaste tu aplicación por primera vez, las evaluaciones offline que hayas hecho desde entonces y las evaluaciones adicionales que hayas identificado en el paso 1. Si sigues pensando que la evaluación no abarca por completo el ámbito de tu aplicación, realiza más evaluaciones.

Si no tienes una forma automatizada de realizar evaluaciones sin conexión, puedes usar el servicio de evaluación de IA generativa.

Si tu aplicación usa el ajuste fino, realiza una evaluación sin conexión antes de volver a ajustar tu modelo con la versión más reciente de Gemini. Los modelos más recientes ofrecen una calidad de salida mejorada, lo que puede significar que tu aplicación ya no necesite un modelo ajustado.

4. Evalúa los resultados de la evaluación y ajusta tus peticiones e hiperparámetros

Si la evaluación offline muestra que tu aplicación no funciona con la misma eficacia, mejórala hasta que su rendimiento sea igual al del modelo anterior. Para ello, haz lo siguiente:

Refinar tus peticiones de forma iterativa para mejorar el rendimiento (método de escalada). Si es la primera vez que usas el método de escalada de colinas, consulta el curso online sobre el método de escalada de colinas de Vertex Gemini. También puede ayudarte el optimizador de peticiones de Vertex AI (cuaderno de ejemplo).
Si tu aplicación se ve afectada por los cambios de la recuperación dinámica y Top-K, prueba a ajustar los parámetros de muestreo de tokens y de la petición.

5. Realizar pruebas de carga

Si tu aplicación necesita un rendimiento mínimo determinado, realiza pruebas de carga para asegurarte de que la versión más reciente de tu aplicación cumple los requisitos de rendimiento.

Las pruebas de carga deben realizarse antes de la evaluación online, ya que esta implica exponer el modelo al tráfico real. Usa las herramientas y la instrumentación de pruebas de carga que ya tengas en este paso.

Si tu aplicación ya cumple los requisitos de rendimiento, considera la posibilidad de usar Rendimiento aprovisionado. Necesitarás un Provisioned Throughput adicional a corto plazo para cubrir las pruebas de carga mientras tu pedido de Provisioned Throughput actual gestiona el tráfico de producción.

6. (Opcional) Realizar evaluaciones online

Pasa a la evaluación online solo si la evaluación offline muestra una alta calidad de los resultados de Gemini y tu aplicación requiere una evaluación online.

La evaluación online es un tipo específico de prueba online. Intenta usar las herramientas y los métodos de evaluación online de tu organización. Por ejemplo:

Si tu organización realiza pruebas A/B con regularidad, haz una para comparar la versión actual de tu aplicación con la última versión de Gemini.
Si tu organización usa con frecuencia despliegues canary, utilízalos con los modelos más recientes y mide los cambios en el comportamiento de los usuarios.

También puedes hacer una evaluación online añadiendo nuevas funciones de comentarios y medición a tu aplicación. Cada aplicación necesita un método de envío de comentarios diferente. Por ejemplo:

Añadir botones de Me gusta y No me gusta junto a los resultados del modelo y comparar las tasas entre un modelo anterior y los modelos de Gemini más recientes.
Mostrando a los usuarios las respuestas del modelo antiguo y de los modelos más recientes en paralelo y pidiéndoles que elijan su favorita.
Monitorizar la frecuencia con la que los usuarios anulan o ajustan manualmente los resultados del modelo antiguo en comparación con los modelos más recientes.

Estos métodos de envío de comentarios suelen requerir que ejecutes la versión más reciente de Gemini junto con la versión que ya tienes. Esta implementación paralela se denomina a veces "modo de sombra" o "implementación azul-verde".

Si los resultados de la evaluación online difieren mucho de los de la evaluación offline, significa que esta última no refleja aspectos clave del entorno real o de la experiencia de usuario. Aplica los resultados de la evaluación online para crear una nueva evaluación offline que cubra la diferencia y, a continuación, vuelve al paso 3.

Si usas el rendimiento aprovisionado, puede que tengas que comprar más rendimiento aprovisionado a corto plazo para seguir cumpliendo los requisitos de rendimiento de los usuarios en la evaluación online.

7. Desplegar en producción

Una vez que la evaluación muestre que el modelo de Gemini más reciente funciona igual o mejor que un modelo anterior, sustituye la versión de la aplicación actual por la nueva. Sigue los procedimientos estándar de tu organización para lanzar la producción.

Si usas Provisioned Throughput, cambia tu pedido de Provisioned Throughput al modelo de Gemini que elijas. Si vas a lanzar tu aplicación de forma incremental, usa el rendimiento aprovisionado a corto plazo para satisfacer las necesidades de rendimiento de dos modelos de Gemini diferentes.

Mejorar el rendimiento del modelo

Durante la migración, aplica estos consejos para conseguir un rendimiento óptimo con el modelo de Gemini que elijas:

Comprueba las instrucciones del sistema, las peticiones y los ejemplos de aprendizaje con pocos ejemplos para detectar incoherencias, contradicciones o instrucciones y ejemplos irrelevantes.
Prueba un modelo más potente. Por ejemplo, si has evaluado Gemini 2.0 Flash-Lite, prueba Gemini 2.0 Flash.
Revisa los resultados de la evaluación automática para asegurarte de que coinciden con el criterio humano, sobre todo los resultados que utilizan un modelo de juez. Asegúrate de que las instrucciones del modelo de juez sean claras, coherentes e inequívocas.
Para mejorar las instrucciones del modelo de juez, prueba las instrucciones con varios humanos que trabajen de forma aislada. Si los humanos interpretan las instrucciones de forma diferente y emiten juicios distintos, significa que las instrucciones del modelo de juez no son claras.
Ajusta el modelo.
Examina los resultados de la evaluación para identificar patrones que muestren tipos específicos de errores. Si agrupa los errores por modelo, tipo o categoría, obtendrá datos de evaluación más específicos, lo que le facilitará el ajuste de las peticiones para corregir estos errores.
Asegúrate de evaluar los distintos componentes de la IA generativa de forma independiente.
Experimenta con los parámetros de muestreo de tokens.

Cómo obtener ayuda

Si necesitas ayuda, Google Cloud ofrece paquetes de asistencia que se adaptan a tus necesidades, como cobertura las 24 horas, asistencia telefónica y acceso a un gestor de asistencia técnica. Para obtener más información, consulta Google Cloud Asistencia.

Siguientes pasos

Consulta la lista de preguntas frecuentes.
Migrar de la API PaLM a la API de Gemini en Vertex AI.