Modelli supportati

Le seguenti tabelle mostrano i modelli che supportano il throughput di cui è stato eseguito il provisioning, il throughput per ogni unità della scala di AI generativa (GSU) e i tassi di esaurimento per ogni modello.

Modelli Google

Il throughput riservato supporta solo i modelli che chiami direttamente dal tuo progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare il throughput riservato per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad esempio gemini-2.0-flash-001) e non un alias della versione del modello.

Inoltre, il throughput di cui è stato eseguito il provisioning non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash durante l'utilizzo di Vertex AI Search, l'ordine di throughput di cui è stato eseguito il provisioning per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.

Provisioned Throughput non supporta le chiamate di previsione batch.

La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli Google che supportano il throughput di cui è stato eseguito il provisioning. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato in tutte le richieste al secondo.

Per scoprire quanti token richiede il tuo workload, consulta il tokenizzatore SDK o l'API countTokens.

Modello Throughput al secondo per GSU Unità Incremento minimo di acquisto di GSU Tassi di esaurimento

Gemini 2.5 Flash con API Live

Ultima versione supportata: gemini-live-2.5-flash

1620 Token 1 1 token di testo di input = 1 token di testo di input
1 token audio di input = 6 token di testo di input
1 token video di input = 6 token di testo di input
1 token di memoria della sessione di input = 1 token di testo di input
1 token di testo di output = 4 token di testo di input
1 token audio di output = 24 token di testo di input

Anteprima delle immagini di Gemini 2.5 Flash

Ultima versione supportata: gemini-2.5-flash-image-preview (anteprima)

2690 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di testo di output = 9 token
1 token di immagine di output = 100 token

Gemini 2.5 Flash-Lite

Ultima versione supportata: gemini-2.5-flash-lite

8070 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 3 token
1 token di testo di risposta di output = 4 token
1 token di testo di ragionamento di output = 4 token

Gemini 2.5 Pro

Ultima versione supportata: gemini-2.5-pro

650 Token 1 Meno di 200.000 token di input:
1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 1 token
1 token di testo di risposta di output = 8 token
1 token di testo di ragionamento di output = 8 token

Più di 200.000 token di input:
1 token di testo di input = 2 token
1 token di immagine di input = 2 token
1 token di video di input = 2 token
1 token di audio di input = 2 token
1 token di testo di risposta di output = 12 token
1 token di testo di ragionamento di output = 12 token

Gemini 2.5 Flash

Ultima versione supportata: gemini-2.5-flash

2690 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 4 token
1 token di testo di risposta di output = 9 token
1 token di testo di ragionamento di output = 9 token

Gemini 2.0 Flash

Ultima versione supportata: gemini-2.0-flash-001

3360 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 7 token
1 token di testo di output = 4 token

Gemini 2.0 Flash-Lite

Ultima versione supportata: gemini-2.0-flash-lite-001

6720 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 1 token
1 token di testo di output = 4 token

Veo 3

Ultima versione supportata: veo-3.0-generate-001

0,0016 Secondi di video 167 1 secondo di video di output = 1 secondo di video di output
Secondi di video e audio 267 1 secondo di video+audio di output = 1,6 secondi di video di output

Veo 3 Fast

Ultima versione supportata: veo-3.0-fast-generate-001

0,0032 Secondi di video 84 1 secondo di video di output = 1 secondo di video di output
Secondi di video e audio 134 1 secondo di video+audio di output = 1,6 secondi di video di output
Imagen 3 0,025 Immagini 1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Imagen 3 Fast 0,05 Immagini 1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
MedLM medium 2000 Caratteri 1 1 carattere di input = 1 carattere
1 carattere di output = 2 caratteri
MedLM large 200 Caratteri 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
MedLM large 1.5 200 Caratteri 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri

Per informazioni sulle funzionalità e sui limiti di input o output di un modello, consulta la documentazione del modello.

Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni su disponibilità e date di ritiro dei modelli, vedi Modelli Google.

Per ulteriori informazioni sulle località supportate, consulta Località disponibili.

Supporto del modello di endpoint globale

Il throughput riservato supporta l'endpoint globale per i seguenti modelli:

Modello Ultima versione del modello supportata
Anteprima delle immagini di Gemini 2.5 Flash (anteprima) gemini-2.5-flash-image-preview
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Il traffico che supera la quota di throughput di cui è stato eseguito il provisioning utilizza l'endpoint globale per impostazione predefinita.

Per assegnare il throughput di cui è stato eseguito il provisioning all'endpoint globale di un modello, seleziona global come regione quando effettui un ordine di throughput di cui è stato eseguito il provisioning.

Supporto del modello ottimizzato supervisionato

Per i modelli Google che supportano la messa a punto supervisionata, è supportato quanto segue:

  • Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate con supervisione di questi modelli di base.

  • Gli endpoint del modello ottimizzato in modo supervisionato e il numero di modelli di base corrispondenti vengono conteggiati ai fini della stessa quota di throughput riservato.

    Ad esempio, il throughput di cui è stato eseguito il provisioning acquistato per gemini-2.0-flash-lite-001 per un progetto specifico assegna la priorità alle richieste effettuate da versioni ottimizzate e supervisionate di gemini-2.0-flash-lite-001 create all'interno di quel progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.

Modelli di partner

La tabella seguente mostra le velocità effettive, l'incremento di acquisto e i tassi di esaurimento per i modelli partner che supportano il throughput di cui è stato eseguito il provisioning. I modelli Claude sono misurati in token al secondo, ovvero un totale di token di input e output in tutte le richieste al secondo.

Modello Throughput per GSU (token/sec) Acquisto minimo di GSU Incremento dell'acquisto di GSU Tassi di esaurimento
Claude Opus 4.1 di Anthropic 70 35 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude Opus 4 di Anthropic 70 35 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude Sonnet 4 di Anthropic 350 25 1 Meno di 200.000 token di input:
1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token

Almeno 200.000 token di input:
1 token di input = 2 token
1 token di output = 7,5 token
1 token di scrittura della cache = 2,5 token
1 token di successo della cache = 0,2 token
Claude 3.7 Sonnet di Anthropic 350 25 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude 3.5 Sonnet v2 di Anthropic (ritirato) 350 25 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude 3.5 Haiku di Anthropic 2000 10 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude 3 Opus di Anthropic 70 35 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude 3 Haiku di Anthropic 4200 5 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token
Claude 3.5 Sonnet di Anthropic (ritirato) 350 25 1 1 token di input = 1 token
1 token di output = 5 token
1 token di scrittura della cache = 1,25 token
1 token di successo della cache = 0,1 token

Per informazioni sulle località supportate, vedi Disponibilità della regione Anthropic Claude. Per ordinare Provisioned Throughput per i modelli Anthropic, contatta il tuo Google Cloud account representative.

Passaggi successivi