Esta página foi traduzida pela API Cloud Translation.

Migrar para os modelos mais recentes do Gemini

Este guia explica como atualizar seu aplicativo para a versão mais recente do Gemini. Este guia pressupõe que seu aplicativo já usa uma versão mais antiga do Gemini. Para aprender a usar o Gemini na Vertex AI, consulte o Guia de início rápido da API Gemini na Vertex AI.

Este guia não aborda como mudar seu aplicativo do SDK da Vertex AI para o SDK de IA generativa do Google atual. Para mais informações, consulte o guia de migração do SDK da Vertex AI.

Quais mudanças devo esperar?

Para atualizar a maioria dos aplicativos de IA generativa para a versão mais recente do Gemini, são necessárias poucas mudanças no código ou nos comandos. No entanto, alguns aplicativos podem exigir ajustes de comandos. É difícil prever essas mudanças sem testar primeiro seus comandos com a nova versão. Recomendamos fazer testes completos antes de migrar totalmente. Para dicas sobre como criar comandos eficazes, consulte nossas orientações sobre estratégia de comandos. Use nossa lista de verificação de integridade de comandos para encontrar e corrigir problemas.

Você só precisa fazer mudanças importantes no código para determinadas mudanças destrutivas ou para usar novos recursos do Gemini.

Para qual modelo do Gemini devo migrar?

O modelo do Gemini que você usa depende das necessidades do seu aplicativo. A tabela a seguir compara os modelos mais antigos do Gemini 1.5 com os mais recentes:

Recurso	1.5 Pro	1.5 Flash	2.0 Flash	2.0 Flash-Lite	2.5 Pro	2.5 Flash	2.5 Flash-Lite
Etapa do lançamento	Desativado	Desativado	Disponibilidade geral	Disponibilidade geral	Disponibilidade geral	Disponibilidade geral	Disponibilidade geral
Modalidades de entrada	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo	Texto, Código, Imagens, Áudio, Vídeo
Modalidades de saída	Texto	Texto	Texto	Texto	Texto	Texto	Texto
Janela de contexto, limite total de tokens	2.097.152	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576
Tamanho do contexto de saída	8.192 (padrão)	8.192 (padrão)	8.192 (padrão)	8.192 (padrão)	65.535 (padrão)	65.535 (padrão)	65.536 (padrão)
Embasamento com a Pesquisa Google
Chamadas de função
Execução de código
Cache de contexto
Previsão em lote
API Live^*
Ajuste de detalhes
Latência
SDK recomendado	SDK da Vertex AI	SDK da Vertex AI	SDK da IA generativa	SDK da IA generativa	SDK da IA generativa	SDK da IA generativa	SDK da IA generativa
Unidades de preço	Baseado em caracteres	Baseado em caracteres	Token	Token	Token	Token	Token
Data de desativação	24 de setembro de 2025	24 de setembro de 2025	5 de fevereiro de 2026	25 de fevereiro de 2026	17 de junho de 2026	17 de junho de 2026	22 de julho de 2026

^* A API Live está disponível como uma oferta de prévia como parte do gemini-live-2.5-flash e do gemini-live-2.5-flash-preview-native-audio.

Antes de começar a migração

Antes de iniciar o processo de migração, considere o seguinte:

Segurança da informação (InfoSec), governança e aprovações regulatórias
Disponibilidade de locais
Diferenças de preços com base na modalidade e na tokenização
Comprar ou mudar pedidos de capacidade de processamento provisionada
Ajuste supervisionado
Teste de regressão

Infosec, governança e aprovações regulatórias

Obtenha aprovações das equipes de segurança da informação (InfoSec), risco e conformidade desde o início. Aborde regras específicas de risco e compliance, principalmente em setores regulamentados, como saúde e finanças.

Disponibilidade do local

Os modelos do Google e dos parceiros e os recursos de IA generativa na Vertex AI estão disponíveis em endpoints regionais específicos e um endpoint global. Os endpoints globais abrangem o mundo todo e oferecem melhor disponibilidade e confiabilidade em comparação com regiões únicas.

A disponibilidade de endpoints regionais varia de acordo com o modelo. Para mais detalhes sobre cada modelo, consulte nosso guia de locais.

Diferenças de preços com base na modalidade e na tokenização

Os preços variam de acordo com o modelo do Gemini. Nossa página de preços lista os custos de todas as modalidades (texto, código, imagens, fala etc.) por modelo.

Comprar ou mudar pedidos de capacidade de processamento provisionada

Se necessário, compre mais capacidade de processamento provisionada ou mude os pedidos de capacidade de processamento provisionada atuais.

Ajuste de detalhes supervisionado

Os modelos mais recentes do Gemini oferecem melhor qualidade de saída. Isso pode significar que seu aplicativo não precisa mais de um modelo ajustado. Se o aplicativo usar ajuste supervisionado de detalhes com um modelo mais antigo do Gemini, primeiro teste o aplicativo com o modelo mais recente sem ajuste de detalhes e avalie os resultados.

Se você escolher usar o ajuste fino supervisionado, não será possível mover seu modelo ajustado das versões mais antigas do Gemini. É necessário executar um novo job de ajuste para a nova versão do Gemini.

Ao ajustar um novo modelo do Gemini, comece com as configurações de ajuste padrão. Não reutilize valores de hiperparâmetros de versões anteriores do Gemini, porque o serviço de ajuste é otimizado para as versões mais recentes. É improvável que a reutilização de configurações antigas gere resultados ideais.

Teste de regressão

Ao fazer upgrade para a versão mais recente do Gemini, você vai precisar de três tipos principais de testes de regressão:

Testes de regressão de código:testes de regressão do ponto de vista de engenharia de software e operações de desenvolvedores (DevOps). Esse tipo de teste de regressão é sempre necessário.
Testes de regressão de performance do modelo:testes de regressão de uma perspectiva de ciência de dados ou aprendizado de máquina. Isso significa garantir que a nova versão do modelo Gemini forneça resultados que pelo menos mantenham o mesmo nível de qualidade da versão anterior.

Os testes de regressão de desempenho do modelo são avaliações feitas quando um sistema ou o modelo subjacente muda. Veja alguns exemplos:
- Teste de desempenho off-line:testes que afirmam a qualidade das saídas do modelo em um ambiente de experimentação dedicado com base em várias métricas de qualidade de saída do modelo.
- Teste de desempenho do modelo on-line:testes que afirmam a qualidade das saídas do modelo em uma implantação on-line ativa com base no feedback implícito ou explícito do usuário.
Teste de carga:esses testes verificam como o aplicativo processa várias solicitações de uma só vez. O teste de carga é obrigatório para aplicativos que usam a capacidade de processamento provisionada.

Como migrar para a versão mais recente

As seções a seguir descrevem as etapas para migrar para a versão mais recente do Gemini. Para ter os melhores resultados, siga estas etapas na ordem.

1. Requisitos de avaliação e teste de modelos de documentos

Prepare-se para repetir as avaliações relevantes que você fez quando criou o aplicativo, além de todas as avaliações realizadas desde então.
Se as avaliações atuais não cobrirem ou medirem totalmente todas as tarefas que seu aplicativo realiza, crie e prepare mais avaliações. Use nosso playbook de avaliação e nossas receitas de avaliação para começar.
Se o aplicativo envolver RAG, uso de ferramentas, fluxos de trabalho complexos de agentes ou cadeias de comandos, verifique se os dados de avaliação atuais permitem avaliar cada componente de forma independente. Caso contrário, colete exemplos de entrada e saída para cada componente.
Se o aplicativo for essencial ou fizer parte de um sistema maior em tempo real voltado ao usuário, inclua a avaliação on-line.

2. Fazer upgrades de código e executar testes

Para fazer upgrade do seu código, são necessárias três mudanças principais:

Fazer upgrade para o SDK da IA generativa do Google
Mudar suas chamadas do Gemini
Corrigir mudanças importantes no código

As seções a seguir explicam essas mudanças em mais detalhes.

Fazer upgrade para o SDK de IA generativa do Google

Se o aplicativo Gemini 1.x usar o SDK da Vertex AI, mude para o SDK de IA generativa. Consulte nosso guia de migração do SDK da Vertex AI para mais detalhes, incluindo exemplos de código para fazer chamadas semelhantes com o SDK da IA generativa. As versões do SDK da Vertex AI lançadas após junho de 2026 não vão oferecer suporte ao Gemini, e os novos recursos do Gemini só estarão disponíveis no SDK da IA generativa.

Se você não conhece o SDK da IA generativa, consulte o notebook Introdução à IA generativa do Google usando o SDK da IA generativa.

Mudar suas chamadas do Gemini

Atualize seu código de previsão para usar um dos modelos mais recentes do Gemini. No mínimo, isso significa mudar o nome do endpoint do modelo.

As mudanças exatas no código variam de acordo com a forma como você criou o aplicativo, principalmente se usou o SDK da IA generativa ou o SDK da Vertex AI.

Depois de fazer mudanças no código, execute testes de regressão de código e outros testes de software para garantir que o código funcione conforme o esperado. Essa etapa verifica se o código funciona, mas não a qualidade das respostas do modelo.

Corrigir mudanças de código incompatíveis

Recuperação dinâmica: comece a usar o Embasamento com a Pesquisa Google. Esse recurso requer o SDK da IA generativa e não é compatível com o SDK da Vertex AI.
Filtros de conteúdo: observe as configurações padrão de filtro de conteúdo. Mude seu código se ele depender de um padrão que foi alterado.
Parâmetro de amostragem de token Top-K: os modelos após gemini-1.0-pro-vision não permitem mudar o parâmetro Top-K.

Nesta etapa, concentre-se apenas nas mudanças de código. Talvez seja necessário fazer outras mudanças depois, mas aguarde até começar a avaliação. Depois das avaliações, considere estes ajustes com base nos resultados:

Se você estiver mudando da recuperação dinâmica, talvez seja necessário ajustar as instruções do sistema para controlar quando a Pesquisa Google é usada (por exemplo, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). No entanto, aguarde até avaliar antes de mudar os comandos.
Se você usou o parâmetro Top-K, ajuste outros parâmetros de amostragem de token, como Top-P, para ter resultados semelhantes.

3. Executar avaliações off-line

Repita as avaliações que você fez quando desenvolveu e lançou o aplicativo, as avaliações off-line realizadas desde então e as avaliações adicionais identificadas na etapa 1. Se você ainda achar que sua avaliação não abrange totalmente o escopo do aplicativo, faça outras avaliações.

Se você não tiver uma maneira automatizada de executar avaliações off-line, use o Serviço de avaliação de IA generativa.

Se o aplicativo usar ajuste refinado, faça uma avaliação off-line antes de ajustar novamente o modelo com a versão mais recente do Gemini. Os modelos mais recentes oferecem melhor qualidade de saída, o que pode significar que seu aplicativo não precisa mais de um modelo ajustado.

4. Avalie os resultados da avaliação e ajuste seus comandos e hiperparâmetros

Se a avaliação off-line mostrar que o aplicativo está com um desempenho menos eficaz, melhore-o até que a performance seja igual à do modelo mais antigo. Para fazer isso:

Refinar de forma iterativa seus comandos para aumentar a performance ("Hill Climbing"). Se você não conhece a otimização por escalada de colina, confira o treinamento on-line sobre otimização por escalada de colina do Gemini na Vertex. O otimizador de comandos da Vertex AI (notebook de exemplo) também pode ajudar.
Se o aplicativo for afetado por mudanças destrutivas na recuperação dinâmica e no Top-K, teste ajustar os parâmetros de amostragem de comando e token.

5. Executar testes de carga

Se o aplicativo precisar de uma determinada taxa de transferência mínima, faça testes de carga para garantir que a versão mais recente atenda aos requisitos.

O teste de carga precisa ocorrer antes da avaliação on-line, porque ela envolve expor o modelo ao tráfego ativo. Use as ferramentas e a instrumentação de teste de carga atuais para esta etapa.

Se o aplicativo já atender às necessidades de capacidade de processamento, considere usar a capacidade de processamento provisionada. Você vai precisar de mais capacidade de processamento provisionada de curto prazo para cobrir os testes de carga enquanto o pedido atual lida com o tráfego de produção.

6. (Opcional) Fazer avaliações on-line

Mude para a avaliação on-line somente se a off-line mostrar alta qualidade de saída do Gemini e seu aplicativo exigir avaliação on-line.

A avaliação on-line é um tipo específico de teste on-line. Tente usar as ferramentas e os métodos atuais da sua organização para avaliação on-line. Exemplo:

Se a sua organização realiza testes A/B regularmente, faça um para comparar a versão atual do aplicativo com a mais recente do Gemini.
Se sua organização usa regularmente implantações canário, use-as com os modelos mais recentes e meça as mudanças no comportamento do usuário.

Você também pode fazer uma avaliação on-line adicionando novos recursos de feedback e medição ao seu aplicativo. Aplicativos diferentes precisam de métodos de feedback diferentes. Exemplo:

Adicionamos botões de "Gostei" e "Não gostei" ao lado das saídas do modelo e comparamos as taxas entre um modelo mais antigo e os modelos mais recentes do Gemini.
Mostrar aos usuários saídas do modelo mais antigo e dos mais recentes lado a lado e pedir que escolham a favorita.
Rastrear a frequência com que os usuários substituem ou ajustam manualmente as saídas do modelo mais antigo em comparação com os mais recentes.

Esses métodos geralmente exigem a execução da versão mais recente do Gemini junto com a versão atual. Essa implantação paralela às vezes é chamada de "modo sombra" ou "implantação azul-verde".

Se os resultados da avaliação on-line forem muito diferentes dos resultados da avaliação off-line, isso significa que a avaliação off-line não está capturando aspectos importantes do ambiente ativo ou da experiência do usuário. Aplique as descobertas da avaliação on-line para criar uma nova avaliação off-line que cubra a lacuna e volte à etapa 3.

Se você usa a capacidade de processamento provisionada, talvez seja necessário comprar mais capacidade de processamento provisionada de curto prazo para continuar atendendo aos requisitos de capacidade de processamento dos usuários na avaliação on-line.

7. Implantar para a produção

Quando a avaliação mostrar que o modelo mais recente do Gemini tem um desempenho igual ou melhor que um modelo mais antigo, substitua a versão atual do aplicativo pela nova. Siga os procedimentos padrão da sua organização para o lançamento da produção.

Se você estiver usando a capacidade de processamento provisionada, mude o pedido para o modelo do Gemini escolhido. Se você estiver lançando o aplicativo de forma incremental, use a capacidade de processamento provisionada de curto prazo para atender às necessidades de dois modelos diferentes do Gemini.

Como melhorar o desempenho do modelo

Ao migrar, aplique estas dicas para alcançar a performance ideal do modelo do Gemini escolhido:

Verifique suas instruções do sistema, comandos e exemplos de aprendizado com poucos exemplos para identificar inconsistências, contradições ou instruções e exemplos irrelevantes.
Teste um modelo mais eficiente. Por exemplo, se você avaliou o Gemini 2.0 Flash-Lite, teste o Gemini 2.0 Flash.
Revise os resultados da avaliação automatizada para garantir que eles correspondam ao julgamento humano, especialmente os resultados que usam um modelo de avaliação. As instruções do modelo de avaliação precisam ser claras, consistentes e sem ambiguidade.
Para melhorar as instruções do modelo de avaliação, teste-as com várias pessoas trabalhando isoladamente. Se os humanos interpretarem as instruções de maneira diferente e fornecerem julgamentos diferentes, as instruções do modelo de avaliação não estarão claras.
Ajuste o modelo.
Examine as saídas de avaliação para encontrar padrões que mostrem tipos específicos de falhas. Agrupar falhas por modelo, tipo ou categoria fornece dados de avaliação mais direcionados, facilitando o ajuste dos comandos para corrigir esses erros.
Avalie os diferentes componentes de IA generativa de forma independente.
Teste ajustar os parâmetros de amostragem de token.

Como receber ajuda

Se você precisar de ajuda, o Google Cloud oferece pacotes de suporte para atender às suas necessidades, como cobertura 24 horas, suporte por telefone e acesso a um gerente de suporte técnico. Para mais informações, consulte Suporte doGoogle Cloud .

A seguir

Consulte a lista de perguntas frequentes.
Migrar da API PaLM para a API Gemini na Vertex AI.