Questa pagina è stata tradotta dall'API Cloud Translation.

Eseguire la migrazione agli ultimi modelli Gemini

Questa guida spiega come aggiornare l'applicazione all'ultima versione di Gemini. Questa guida presuppone che la tua applicazione utilizzi già una versione precedente di Gemini. Per scoprire come iniziare a utilizzare Gemini in Vertex AI, consulta la guida rapida all'API Gemini in Vertex AI.

Questa guida non spiega come passare dall'SDK Vertex AI all'SDK Google Gen AI attuale. Per queste informazioni, consulta la nostra guida alla migrazione dell'SDK Vertex AI.

Quali modifiche devo aspettarmi?

L'aggiornamento della maggior parte delle applicazioni di AI generativa all'ultima versione di Gemini richiede poche modifiche al codice o ai prompt. Tuttavia, alcune applicazioni potrebbero richiedere aggiustamenti del prompt. È difficile prevedere queste modifiche senza prima testare i prompt con la nuova versione. Prima di eseguire la migrazione completa, ti consigliamo di eseguire test approfonditi. Per suggerimenti su come creare prompt efficaci, consulta le nostre indicazioni sulla strategia per i prompt. Utilizza il nostro elenco di controllo per la salute dei prompt per trovare e risolvere i problemi relativi ai prompt.

Devi apportare modifiche significative al codice solo per determinati cambiamenti che causano interruzioni o per utilizzare le nuove funzionalità di Gemini.

A quale modello Gemini devo eseguire la migrazione?

Il modello Gemini che utilizzi dipende dalle esigenze della tua applicazione. La seguente tabella confronta i modelli Gemini 1.5 precedenti con i modelli Gemini più recenti:

Funzionalità	1.5 Pro	1.5 Flash	2.0 Flash	2.0 Flash-Lite	2.5 Pro	2.5 Flash	2.5 Flash-Lite
Fase di avvio	Pensionato	Pensionato	Disponibilità generale	Disponibilità generale	Disponibilità generale	Disponibilità generale	Disponibilità generale
Modalità di input	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video	Testo, Codice, Immagini, Audio, Video
Modalità di output	Testo	Testo	Testo	Testo	Testo	Testo	Testo
Finestra contestuale, limite totale di token	2.097.152	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576	1.048.576
Lunghezza del contesto di output	8192 (valore predefinito)	8192 (valore predefinito)	8192 (valore predefinito)	8192 (valore predefinito)	65.535 (valore predefinito)	65.535 (valore predefinito)	65.536 (valore predefinito)
Grounding con la Ricerca Google
Chiamata di funzione
Esecuzione del codice
Memorizzazione nella cache del contesto
Previsione batch
API Live^*
Perfezionamento
Latenza
SDK consigliato	SDK Vertex AI	SDK Vertex AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI	SDK Gen AI
Unità di prezzo	Basato su caratteri	Basato su caratteri	Token	Token	Token	Token	Token
Data di ritiro	24 settembre 2025	24 settembre 2025	5 febbraio 2026	25 febbraio 2026	17 giugno 2026	17 giugno 2026	22 luglio 2026

^* L'API Live è disponibile come offerta di anteprima nell'ambito di gemini-live-2.5-flash e gemini-live-2.5-flash-preview-native-audio.

Prima di iniziare la migrazione

Prima di iniziare il processo di migrazione, tieni presente quanto segue:

Sicurezza delle informazioni (InfoSec), governance e approvazioni normative
Disponibilità della posizione
Differenze di prezzo basate su modalità e tokenizzazione
Acquistare o modificare ordini di throughput riservato
Ottimizzazione supervisionata
Test di regressione

InfoSec, governance e approvazioni normative

Ottieni le approvazioni dai team di sicurezza delle informazioni (InfoSec), gestione dei rischi e conformità in anticipo. Copri eventuali norme specifiche in materia di rischi e conformità, soprattutto in settori regolamentati come quello sanitario e finanziario.

Disponibilità della posizione

I modelli di Google e dei partner e le funzionalità di AI generativa su Vertex AI sono disponibili tramite endpoint regionali specifici e un endpoint globale. Gli endpoint globali coprono il mondo intero e offrono una disponibilità e un'affidabilità migliori rispetto alle singole regioni.

La disponibilità degli endpoint regionali varia in base al modello. Per informazioni dettagliate su ciascun modello, consulta la nostra guida alle sedi.

Differenze di prezzo basate sulla modalità e sulla tokenizzazione

I prezzi variano a seconda del modello Gemini. La nostra pagina dei prezzi elenca i costi per tutte le modalità (testo, codice, immagini, voce e così via) per modello.

Acquistare o modificare gli ordini di throughput riservato

Se necessario, acquista altra velocità effettiva sottoposta a provisioning o modifica gli ordini di velocità effettiva sottoposta a provisioning esistenti.

Ottimizzazione supervisionata

I modelli Gemini più recenti offrono una migliore qualità dell'output. Ciò può significare che la tua applicazione non ha più bisogno di un modello ottimizzato. Se la tua applicazione utilizza il fine-tuning supervisionato con un modello Gemini precedente, testa prima la tua applicazione con il modello più recente senza fine-tuning e valuta i risultati.

Se scegli di utilizzare il fine-tuning supervisionato, non puoi spostare il modello ottimizzato esistente dalle versioni precedenti di Gemini. Devi eseguire un nuovo job di ottimizzazione per la nuova versione di Gemini.

Quando ottimizzi un nuovo modello Gemini, inizia con le impostazioni di ottimizzazione predefinite. Non riutilizzare i valori degli iperparametri delle versioni precedenti di Gemini, perché il servizio di ottimizzazione è ottimizzato per le versioni più recenti. Il riutilizzo di impostazioni precedenti difficilmente produrrà risultati ottimali.

Test di regressione

Quando esegui l'upgrade all'ultima versione di Gemini, devi eseguire tre tipi principali di test di regressione:

Test di regressione del codice:test di regressione dal punto di vista dell'ingegneria del software e delle operazioni di sviluppo (DevOps). Questo tipo di test di regressione è sempre richiesto.
Test di regressione del rendimento del modello:test di regressione dal punto di vista della data science o del machine learning. Ciò significa garantire che la nuova versione del modello Gemini fornisca output che almeno mantengano lo stesso livello di qualità della versione precedente.

I test di regressione delle prestazioni del modello sono valutazioni del modello eseguite quando un sistema o il suo modello sottostante cambia. ovvero:
- Test delle prestazioni offline: test che verificano la qualità degli output del modello in un ambiente di sperimentazione dedicato in base a varie metriche di qualità dell'output del modello.
- Test delle prestazioni del modello online: test che verificano la qualità degli output del modello in un deployment online live in base al feedback degli utenti implicito o esplicito.
Test di carico: questi test verificano il modo in cui l'applicazione gestisce molte richieste contemporaneamente. Il test di carico è obbligatorio per le applicazioni che utilizzano la velocità effettiva sottoposta a provisioning.

Come eseguire la migrazione all'ultima versione

Le sezioni seguenti descrivono i passaggi per eseguire la migrazione all'ultima versione di Gemini. Per risultati ottimali, completa questi passaggi nell'ordine indicato.

1. Requisiti di valutazione e test del modello di documento

Preparati a ripetere tutte le valutazioni pertinenti che hai eseguito quando hai creato l'applicazione, oltre a quelle eseguite da allora.
Se le valutazioni attuali non coprono o misurano completamente tutte le attività eseguite dalla tua applicazione, progetta e prepara altre valutazioni. Per iniziare, puoi utilizzare il nostro playbook di valutazione e le nostre ricette di valutazione.
Se la tua applicazione prevede RAG, l'utilizzo di strumenti, flussi di lavoro complessi degli agenti o catene di prompt, assicurati che i dati di valutazione esistenti consentano di valutare ogni componente in modo indipendente. In caso contrario, raccogli esempi di input-output per ogni componente.
Se la tua applicazione è critica o fa parte di un sistema in tempo reale più ampio rivolto agli utenti, includi la valutazione online.

2. Eseguire upgrade del codice ed eseguire test

L'upgrade del codice richiede tre modifiche principali:

Esegui l'upgrade a Google Gen AI SDK
Modificare le chiamate di Gemini
Correggere le modifiche al codice che causano errori

Le sezioni seguenti esaminano queste modifiche in modo più dettagliato.

Esegui l'upgrade all'SDK Google Gen AI

Se la tua applicazione Gemini 1.x utilizza l'SDK Vertex AI, passa all'SDK Gen AI. Consulta la nostra guida alla migrazione dell'SDK Vertex AI per i dettagli, inclusi esempi di codice per effettuare chiamate simili con l'SDK Gen AI. Le release dell'SDK Vertex AI successive a giugno 2026 non supportano Gemini e le nuove funzionalità di Gemini sono disponibili solo nell'SDK Gen AI.

Se non hai mai utilizzato l'SDK Gen AI, consulta il notebook Guida introduttiva a Google Generative AI con l'SDK Gen AI.

Modificare le chiamate con Gemini

Aggiorna il codice di previsione per utilizzare uno degli ultimi modelli Gemini. Come minimo, ciò significa modificare il nome dell'endpoint del modello.

Le modifiche esatte al codice variano in base a come hai creato l'applicazione, in particolare se hai utilizzato l'SDK Gen AI o l'SDK Vertex AI.

Dopo aver apportato modifiche al codice, esegui test di regressione del codice e altri test software per assicurarti che il codice funzioni come previsto. Questo passaggio verifica se il codice funziona, ma non la qualità delle risposte del modello.

Correggere le modifiche al codice che causano errori

Recupero dinamico: passa all'utilizzo del grounding con la Ricerca Google. Questa funzionalità richiede l'SDK Gen AI e non è supportata dall'SDK Vertex AI.
Filtri dei contenuti: prendi nota delle impostazioni predefinite dei filtri dei contenuti. Modifica il codice se si basa su un valore predefinito che è stato modificato.
Parametro di campionamento dei token Top-K: I modelli successivi a gemini-1.0-pro-vision non supportano la modifica del parametro Top-K.

Per questo passaggio, concentrati solo sulle modifiche al codice. Potresti dover apportare altre modifiche in un secondo momento, ma attendi di iniziare la valutazione. Dopo le valutazioni, prendi in considerazione questi aggiustamenti in base ai risultati della valutazione:

Se passi al recupero dinamico, potresti dover modificare le istruzioni di sistema per controllare quando viene utilizzata la Ricerca Google (ad esempio, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Tuttavia, prima di modificare i prompt, attendi di aver effettuato la valutazione.
Se hai utilizzato il parametro Top-K, regola gli altri parametri di campionamento dei token, come Top-P, per ottenere risultati simili.

3. Eseguire valutazioni offline

Ripeti le valutazioni che hai eseguito quando hai sviluppato e lanciato per la prima volta la tua applicazione, le valutazioni offline eseguite da allora e le valutazioni aggiuntive che hai identificato nel passaggio 1. Se ritieni ancora che la tua valutazione non copra completamente l'ambito della tua applicazione, esegui ulteriori valutazioni.

Se non disponi di un modo automatizzato per eseguire valutazioni offline, valuta la possibilità di utilizzare Gen AI evaluation service.

Se la tua applicazione utilizza il fine-tuning, esegui la valutazione offline prima di ottimizzare nuovamente il modello con l'ultima versione di Gemini. I modelli più recenti offrono una qualità dell'output migliorata, il che può significare che la tua applicazione non ha più bisogno di un modello sottoposto a fine-tuning.

4. Valuta i risultati della valutazione e ottimizza i prompt e gli iperparametri

Se la valutazione offline mostra che la tua applicazione ha un rendimento inferiore, migliorala finché il suo rendimento non corrisponde a quello del modello precedente. Per farlo:

Perfezionare in modo iterativo i prompt per migliorare il rendimento ("Hill Climbing"). Se non hai mai utilizzato l'hill climbing, consulta il corso di formazione online Vertex Gemini hill climbing. Può esserti utile anche l'ottimizzatore di prompt Vertex AI (notebook di esempio).
Se la tua applicazione è interessata dalle modifiche che causano errori di Dynamic Retrieval e Top-K, prova a modificare i parametri di campionamento dei prompt e dei token.

5. Esegui test di carico

Se la tua applicazione richiede una determinata velocità effettiva minima, esegui test di carico per assicurarti che l'ultima versione dell'applicazione soddisfi i requisiti di velocità effettiva.

Il test di carico deve essere eseguito prima della valutazione online, perché quest'ultima comporta l'esposizione del modello al traffico reale. Utilizza gli strumenti e la strumentazione di test di carico esistenti per questo passaggio.

Se la tua applicazione soddisfa già le esigenze di velocità effettiva, valuta la possibilità di utilizzare la velocità effettiva di cui è stato eseguito il provisioning. Avrai bisogno di una velocità effettiva sottoposta a provisioning a breve termine aggiuntiva per coprire il test di carico mentre l'ordine di velocità effettiva sottoposta a provisioning attuale gestisce il traffico di produzione.

6. (Facoltativo) Esegui valutazioni online

Passa alla valutazione online solo se la valutazione offline mostra un'elevata qualità dell'output di Gemini e la tua applicazione richiede una valutazione online.

La valutazione online è un tipo specifico di test online. Prova a utilizzare gli strumenti e i metodi esistenti della tua organizzazione per la valutazione online. Ad esempio:

Se la tua organizzazione esegue regolarmente test A/B, esegui un test per confrontare la versione attuale della tua applicazione con l'ultima versione di Gemini.
Se la tua organizzazione utilizza regolarmente implementazioni canary, utilizzale con i modelli più recenti e misura le modifiche nel comportamento degli utenti.

Puoi anche eseguire la valutazione online aggiungendo nuove funzionalità di feedback e misurazione alla tua applicazione. Applicazioni diverse richiedono metodi di feedback diversi. Ad esempio:

Aggiungendo i pulsanti Mi piace e Non mi piace accanto agli output del modello e confrontando i tassi tra un modello precedente e gli ultimi modelli Gemini.
Mostrare agli utenti gli output del modello precedente e dei modelli più recenti uno accanto all'altro e chiedere loro di scegliere il preferito.
Monitoraggio della frequenza con cui gli utenti ignorano o modificano manualmente gli output del modello precedente rispetto ai modelli più recenti.

Questi metodi di feedback spesso richiedono l'esecuzione dell'ultima versione di Gemini insieme alla versione esistente. Questo deployment parallelo è talvolta chiamato "modalità shadow" o "deployment blu/verde".

Se i risultati della valutazione online differiscono notevolmente da quelli della valutazione offline, la valutazione offline non acquisisce gli aspetti chiave dell'ambiente live o dell'esperienza utente. Applica i risultati della valutazione online per creare una nuova valutazione offline che colmi la lacuna, quindi torna al passaggio 3.

Se utilizzi il throughput di cui è stato eseguito il provisioning, potresti dover acquistare un throughput di cui è stato eseguito il provisioning a breve termine aggiuntivo per continuare a soddisfare i requisiti di throughput per gli utenti nella valutazione online.

7. Distribuzione in produzione

Una volta che la valutazione mostra che l'ultimo modello Gemini funziona bene o meglio di un modello precedente, sostituisci la versione dell'applicazione esistente con la nuova versione. Segui le procedure standard della tua organizzazione per l'implementazione della produzione.

Se utilizzi il throughput riservato, modifica l'ordine del throughput riservato con il modello Gemini che hai scelto. Se stai implementando la tua applicazione in modo incrementale, utilizza il throughput di cui è stato eseguito il provisioning a breve termine per soddisfare le esigenze di throughput per due diversi modelli Gemini.

Miglioramento delle prestazioni del modello

Durante la migrazione, applica questi suggerimenti per ottenere prestazioni ottimali dal modello Gemini che hai scelto:

Controlla le istruzioni di sistema, i prompt e gli esempi di few-shot learning per eventuali incongruenze, contraddizioni o istruzioni ed esempi irrilevanti.
Testare un modello più potente. Ad esempio, se hai valutato Gemini 2.0 Flash-Lite, prova Gemini 2.0 Flash.
Esamina i risultati della valutazione automatica per assicurarti che corrispondano al giudizio umano, soprattutto i risultati che utilizzano un modello di valutazione. Assicurati che le istruzioni del modello di giudice siano chiare, coerenti e non ambigue.
Per migliorare le istruzioni del modello di valutazione, testale con più persone che lavorano in isolamento. Se gli esseri umani interpretano le istruzioni in modo diverso e forniscono giudizi diversi, le istruzioni del modello di valutazione non sono chiare.
Ottimizza il modello.
Esamina gli output di valutazione per individuare pattern che mostrano tipi specifici di errori. Il raggruppamento degli errori per modello, tipo o categoria fornisce dati di valutazione più mirati, semplificando la modifica dei prompt per correggere questi errori.
Assicurati di valutare i diversi componenti dell'AI generativa in modo indipendente.
Prova a modificare i parametri di campionamento dei token.

Assistenza

Se hai bisogno di assistenza, Google Cloud offre pacchetti di assistenza per soddisfare le tue esigenze, come copertura 24 ore su 24, 7 giorni su 7, assistenza telefonica e consulenza con un responsabile dell'assistenza tecnica. Per maggiori informazioni, consulta Assistenza diGoogle Cloud .

Passaggi successivi

Consulta l'elenco delle domande frequenti.
Esegui la migrazione dall'API PaLM all'API Gemini in Vertex AI.