Costo di creazione e deployment dei modelli di AI in Vertex AI
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Ti vengono addebitati solo i costi delle richieste che restituiscono un codice di risposta 200. Le richieste che restituiscono altri codici di risposta, come i codici 4xx e 5xx, non vengono addebitate per l'input o l'output.
Questa pagina illustra i prezzi dell'AI generativa su Vertex AI. Per tutti gli altri prezzi di Vertex AI, inclusi i servizi della piattaforma ML e MLOps, fai riferimento alla pagina dei prezzi di Vertex AI.
Modelli Google
Gemini 3
| Modello | Tipo | Prezzo (per 1 M di token) <= 200.000 token di input | Prezzo (per 1 M di token) > 200.000 token di input | Prezzo (per 1 milione di token) <= 200.000 token di input memorizzati nella cache | Prezzo (per 1 M di token) > 200.000 token di input memorizzati nella cache | Prezzo (per 1 M di token) <= 200.000 token di input con API batch | Prezzo (per 1 M di token) > 200.000 token di input con API batch |
|---|---|---|---|---|---|---|---|
| Anteprima di Gemini 3 Pro | |||||||
| Input (testo, immagine, video, audio) | 2 $ | 4 $ | 0,2 $ | 0,4 $ | 1 $ | 2 $ | |
| Output di testo (risposta e ragionamento) | 12 $ | $ 18 | N/D | N/D | $ 6 | 9 $ | |
| Output di immagini** | 120 $ | N/D | N/D | N/D | 60 $ | N/D | |
| Grounding con la Ricerca Google e grounding web per le aziende |
Gemini 3 Pro include 5000 query di ricerca al mese senza costi aggiuntivi. Le query di ricerca che superano questi limiti vengono fatturate a 14$per 1000 query di ricerca. Una richiesta inviata da un cliente a Gemini può generare una o più query alla Ricerca Google (o Web Grounding for Enterprise). Ti verrà addebitato il costo di ogni singola query di ricerca eseguita. La fatturazione inizierà il 5 gennaio 2026. I token di input forniti da Grounding with Google Search o Web Grounding for Enterprise non vengono addebitati. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati a terra al giorno. |
||||||
| Grounding con Google Maps |
Gemini 3 Pro include 5000 query di ricerca al mese senza costi aggiuntivi. Le query Maps che superano questi limiti vengono fatturate a 14$per 1000 query. Una richiesta inviata da un cliente a Gemini può generare una o più query a Google Maps. Ti verrà addebitato un costo per ogni singola query eseguita. La fatturazione inizierà il 5 gennaio 2026 |
||||||
| Grounding con i tuoi dati | 2,5 $ per 1000 richieste. | ||||||
* Se il contesto di input di una query è più lungo di 200.000 token, tutti i token (input e output) vengono addebitati alle tariffe per contesto lungo.
** Un'immagine di output 1K (1024x1024) e 2K (2048x2048) consuma 1120 token di output immagine, equivalenti a 0,134 $per immagine generata. Un'immagine 4K (4096 x 4096) consuma 2000 token di output immagine, equivalenti a 0,24 $per immagine generata.
Gemini 2.5
| Modello | Tipo | Prezzo (per 1 M di token) <= 200.000 token di input | Prezzo (per 1 M di token) > 200.000 token di input | Prezzo (per 1 milione di token) <= 200.000 token di input memorizzati nella cache | Prezzo (per 1 M di token) > 200.000 token di input memorizzati nella cache | Prezzo (per 1 M di token) <= 200.000 token di input con API batch | Prezzo (per 1 M di token) > 200.000 token di input con API batch |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | |||||||
| Input (testo, immagine, video, audio) | $ 1,25 | 2,5 $ | 0,125 $ | 0,250 $ | $ 0,625 | $ 1,25 | |
| Output di testo (risposta e ragionamento) | 10 $ | 15 $ | N/D | N/D | 5 $ | 7,5 $ | |
| Gemini 2.5 Pro Uso del computer - Anteprima |
|||||||
| Input (testo, immagine, video, audio) | $ 1,25 | 2,5 $ | N/D | N/D | N/D | N/D | |
| Output di testo (risposta e ragionamento) | $ 10,00 | 15,00 $ | N/D | N/D | N/D | N/D | |
Gemini 2.5 Flash |
|||||||
| Input (testo, immagine, video) | $ 0,30 | $ 0,30 | 0,030 $ | 0,030 $ | $ 0,15 | $ 0,15 | |
| Input audio | 1 $ | 1 $ | $0,100 | $0,100 | 0,5 $ | 0,5 $ | |
| Output di testo (risposta e ragionamento) | $ 2,50 | $ 2,50 | N/D | N/D | $ 1,25 | $ 1,25 | |
| Output immagine*** | 30 $ | 30 $ | N/D | N/D | 15 $ | 15 $ | |
API Gemini 2.5 Flash Live |
|||||||
| 1 milione di token di testo di input | 0,5 $ | 0,5 $ | N/D | N/D | N/D | N/D | |
| 1 Mln di token audio di input | 3 $ | 3 $ | N/D | N/D | N/D | N/D | |
| 1 Mln di token video/immagine di input | 3 $ | 3 $ | N/D | N/D | N/D | N/D | |
| 1 Mln di token di testo di output | 2 $ | 2 $ | N/D | N/D | N/D | N/D | |
| 1 Mln di token audio di output | 12 $ | 12 $ | N/D | N/D | N/D | N/D | |
Gemini 2.5 Flash Lite |
|||||||
| Input (testo, immagine, video) | 0,1 $ | 0,1 $ | $ 0,010 | $ 0,010 | $ 0,05 | $ 0,05 | |
| Input audio | $ 0,3 | $ 0,3 | 0,030 $ | 0,030 $ | $ 0,15 | $ 0,15 | |
| Output di testo (risposta e ragionamento) | 0,4 $ | 0,4 $ | N/D | N/D | 0,2 $ | 0,2 $ | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash, 2.5 Flash e 2.5 Flash-Lite includono un totale di 1500 prompt basati al giorno senza costi aggiuntivi. Gemini 2.5 Pro include 10.000 prompt basati al giorno senza costi aggiuntivi. I prompt basati su dati che superano questi limiti vengono fatturati a 35$per 1000 prompt basati su dati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query nella Ricerca Google**. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati a terra al giorno. |
||||||
Grounding web per aziende |
45$per 1000 prompt ancorati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query a Web Grounding for enterprise**. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati a terra al giorno. |
||||||
| Grounding con i tuoi dati | 2,5 $ per 1000 richieste. | ||||||
| Grounding con Google Maps | 25$per 1000 prompt basati su dati. Un prompt basato su dati concreti è una richiesta inviata a Gemini che esegue almeno 1 query su Google Maps. |
||||||
* Se il contesto di input di una query è più lungo di 200.000 token, tutti i token (input e output) vengono addebitati alle tariffe per contesto lungo.
** Il grounding con la Ricerca Google e il grounding web per le aziende vengono fatturati solo quando un prompt restituisce correttamente risultati web (ovvero risultati contenenti almeno un URL di supporto per il grounding dal web). Le tariffe di utilizzo del modello Gemini vengono applicate separatamente.
*** Un'immagine 1024x1024 consuma 1290 token. Il conteggio dei token per immagine varia in base alla risoluzione dell'immagine. Per maggiori informazioni su come calcolare i token, puoi consultare la nostra documentazione.
**** La fatturazione dell'utilizzo del computer utilizza lo SKU Gemini 2.5 Pro per separare i costi di utilizzo del computer e applicare i tag di fatturazione. Scopri di più qui.
- Spiegazione della fatturazione della finestra di contesto della sessione LiveAPI: ti vengono addebitati i costi per turno per tutti i token presenti nella finestra di contesto della sessione. La finestra del contesto della sessione include nuovi token (turno corrente) + tutti i token accumulati dai turni precedenti. Ciò significa che i token dei turni precedenti vengono rielaborati e presi in considerazione in ogni nuovo turno, fino alla dimensione della finestra di contesto configurata. Un "turno" è costituito dall'input di un utente e dalla risposta del modello.
- Modalità audio proattiva: quando è abilitata, i token di input vengono addebitati mentre LiveAPI è in ascolto. I token di output vengono addebitati solo quando l'API risponde.
- Quando è abilitata la trascrizione da audio a testo, tutti i token di testo generati per la trascrizione vengono addebitati alla tariffa di output dei token di testo.
Gemini 2.0
Gemini 2.0 viene fatturato in base ai token. Per calcolare il numero di token di input nella tua richiesta prima di inviarla, puoi utilizzare il tokenizzatore SDK o l'API countTokens. Se la tua richiesta non va a buon fine e viene visualizzato un errore 400 o 500, non ti verranno addebitati i token utilizzati.
Usa l'opzione di attivazione/disattivazione nella tabella dei prezzi per confrontare i prezzi basati sui token e i prezzi basati sulla modalità.
Prezzi basati sui token
| Modello | Tipo | Prezzo | Prezzi con l'API Batch | ||
|---|---|---|---|---|---|
Gemini 2.0 Flash |
|||||
| 1 Mln di token di input | $ 0,15 | 0,075 $ | |||
| 1 Mln di token audio di input | 1,00 $ | $ 0,50 | |||
| 1 Mln di token di testo di output | $ 0,60 | $ 0,30 | |||
| Ottimizzazione per 1 Mln di token di addestramento | $ 3,00 | ||||
Generazione di immagini con Gemini 2.0 Flash |
|||||
| 1 milione di token di input | $ 0,15 | ||||
| 1 Mln di token audio di input | 1,00 $ | ||||
| 1 Mln di token video di input | 3 $ | ||||
| 1 Mln di token di testo di output | $ 0,60 | ||||
| 1 Mln di token immagine di output | $ 30,00 | ||||
API Gemini 2.0 Flash Live |
|||||
| 1 milione di token di testo di input | 0,5 $ | ||||
| 1 Mln di token audio di input | 3 $ | ||||
| 1 Mln di token video/immagine di input | 3 $ | ||||
| 1 Mln di token di testo di output | 2 $ | ||||
| 1 Mln di token audio di output | 12 $ | ||||
Gemini 2.0 Flash Lite |
|||||
| 1 Mln di token di input | 0,075 $ | $ 0,0375 | |||
| 1 Mln di token audio di input | 0,075 $ | $ 0,0375 | |||
| 1 Mln di token di testo di output | $ 0,30 | $ 0,15 | |||
| Ottimizzazione per 1 Mln di token di addestramento | 1,00 $ | ||||
Grounding con la Ricerca Google |
Gemini 2.0 Flash e 2.5 Flash includono un totale di 1500 prompt basati a terra al giorno senza costi aggiuntivi. I prompt basati che superano questi limiti vengono fatturati a 35$per 1000 prompt basati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query nella Ricerca Google*. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati al giorno. |
||||
Grounding web per aziende |
45$per 1000 prompt ancorati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query a Web Grounding per le aziende.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati al giorno. |
||||
| Grounding con i tuoi dati | 2,5 $ per 1000 richieste a partire dal 16 giugno 2025. | ||||
Grounding con Google Maps |
I modelli Gemini includono una serie di prompt basati a terra giornalieri senza costi aggiuntivi: I prompt basati che superano questi limiti vengono fatturati a 25$per 1000 prompt basati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue almeno una query su Google Maps. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati al giorno. |
||||
Prezzi basati sulla modalità
I prezzi delle modalità riportati di seguito si basano su casi d'uso medi solo a scopo di riferimento. La fatturazione effettiva si baserà solo sui token:
- 4 caratteri generano circa 1 token di testo, inclusi gli spazi.
- Per un'immagine 1024x1024, consuma 1290 token. Il conteggio dei token per immagine varia in base alla risoluzione dell'immagine. Per maggiori informazioni su come calcolare i token, puoi consultare la nostra documentazione.
- L'input video consuma 258 token al secondo alla frequenza di campionamento di un frame al secondo. I video con audio vengono fatturati sia per i token video che per i token audio.
- L'input audio consuma 25 token al secondo senza timestamp.
| Modello | Tipo | Prezzo | Prezzi con l'API Batch |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Testo di input ($/M di caratteri) | $ 0,0375 | 0,01875 $ | |
| Immagine di input ($/immagine) | 0,0001935 $ | 0,00009675 $ | |
| Video di input ($/sec) | 0,0000387 $ | 0,00001935 $ | |
| Audio di input ($/sec) | 0,000025 $ | 0,0000125 $ | |
| Testo di output ($/M di caratteri) | $ 0,15 | 0,075 $ | |
Generazione di immagini con Gemini 2.0 Flash |
|||
| Testo di input ($/M di caratteri) | $ 0,0375 | ||
| Immagine di input ($/immagine) | 0,0001935 $ | ||
| Video di input ($/sec) | 0,0000387 $ | ||
| Audio di input ($/sec) | 0,000025 $ | ||
| Testo di output ($/M di caratteri) | $ 0,15 | ||
| Immagine di output ($/immagine) | 0,04 $ | ||
Gemini 2.0 Flash Lite |
|||
| Testo di input ($/M di caratteri) | 0,01875 $ | 0,009375 $ | |
| Immagine di input ($/immagine) | 0,00009675 $ | 0,000048375 $ | |
| Video di input ($/sec) | 0,00001935 $ | 0,000009675 $ | |
| Audio di input ($/sec) | 0,000001875 $ | 0,000000938 $ | |
| Testo di output ($/M di caratteri) | 0,075 $ | $ 0,0375 | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash e 2.5 Flash includono un totale di 1500 prompt basati a terra al giorno senza costi aggiuntivi. I prompt basati che superano questi limiti vengono fatturati a 35$per 1000 prompt basati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query nella Ricerca Google*. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati al giorno. |
||
Grounding web per aziende |
45$per 1000 prompt ancorati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query a Web Grounding per le aziende.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati al giorno. |
||
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli
SKU di Cloud Platform.
* I token di addestramento vengono calcolati in base al numero totale di token nel set di dati di addestramento, moltiplicato per il numero di epoche.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* Il grounding con la Ricerca Google e il grounding web per le aziende vengono fatturati solo quando un prompt restituisce correttamente risultati web (ovvero risultati contenenti almeno un URL di supporto per il grounding dal web). Le tariffe di utilizzo del modello Gemini vengono applicate separatamente.
* API Gemini 2.0 Flash Live: 25 token al secondo di audio (input/output), 258 token al secondo di video (input). Il grounding con la Ricerca Google rimane gratuito mentre l'API Gemini 2.0 Flash Live è in anteprima.
- Spiegazione della fatturazione della finestra di contesto della sessione LiveAPI: ti vengono addebitati i costi per turno per tutti i token presenti nella finestra di contesto della sessione. La finestra del contesto della sessione include nuovi token (turno corrente) + tutti i token accumulati dai turni precedenti. Ciò significa che i token dei turni precedenti vengono rielaborati e presi in considerazione in ogni nuovo turno, fino alla dimensione della finestra di contesto configurata. Un "turno" è costituito dall'input di un utente e dalla risposta del modello.
- Quando è abilitata la trascrizione da audio a testo, tutti i token di testo generati per la trascrizione vengono addebitati alla tariffa di output dei token di testo.
Prezzi di Vertex AI Model Optimizer (sperimentale)*
Vertex AI Model Optimizer semplifica l'utilizzo di Gemini per i clienti aziendali fornendo un singolo meta-endpoint per le richieste del modello Gemini. I clienti che utilizzano questo servizio non devono specificare se utilizzare Flash, Pro o una versione specifica. Invece, forniscono semplicemente un'impostazione configurabile (costo, qualità o bilanciamento) per indicare le proprie preferenze e Model Optimizer applica il livello di intelligenza appropriato per l'attività inviando ogni query al modello più adatto.
Vertex AI Model Optimizer applica prezzi dinamici. Ciò significa che il prezzo medio per token dipende dal livello di intelligenza del modello applicato per completare l'attività. Per questo motivo, di seguito sono forniti esempi di prezzi per illustrare scenari probabili in base all'impostazione della configurazione (vedi le tabelle di seguito). Gli SKU di Model Optimizer sono SKU da 1 $che funzionano come unità di acquisto da applicare alla fatturazione. La fatturazione avviene comunque in base al consumo dopo l'utilizzo dei modelli.
| Rapporto I/O 5:1 | Esempio 1: chatbot |
NOTA: questi intervalli non sono garantiti, i risultati dei singoli clienti possono variare | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Preferenza del cliente | Token di input del cliente inviati al modello | Token di output del cliente inviati al MO | Prezzo medio di input per milione di token (intervallo alto) | Prezzo medio di output per milione di token (intervallo alto) | Prezzo medio di input per milione di token (intervallo basso) | Prezzo medio di output per milione di token (intervallo inferiore) | |||||
| Costo | 10.000.000 | 2.000.000 | 0,63 $ | $ 2,50 | 0,16 $ | 0,63 $ | |||||
| Bilanciato | 10.000.000 | 2.000.000 | $ 1,26 | $ 5,00 | 0,63 $ | $ 2,50 | |||||
| Qualità | 10.000.000 | 2.000.000 | 1,89 $ | $ 7,50 | $ 1,26 | $ 5,00 | |||||
| Rapporto I/O 1:20 | Esempio 2: Generazione di contenuti | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Preferenza del cliente | Token di input del cliente inviati al modello | Token di output del cliente inviati al MO | Prezzo medio di input per milione di token (intervallo alto) | Prezzo medio di output per milione di token (intervallo alto) | Prezzo medio di input per milione di token (intervallo basso) | Prezzo medio di output per milione di token (intervallo inferiore) | |||||
| Costo | 1.000.000 | 20.000.000 | 0,63 $ | $ 2,50 | 0,16 $ | 0,63 $ | |||||
| Bilanciato | 1.000.000 | 20.000.000 | $ 1,26 | $ 5,00 | 0,63 $ | $ 2,50 | |||||
| Qualità | 1.000.000 | 20.000.000 | 1,89 $ | $ 7,50 | $ 1,26 | $ 5,00 | |||||
Altri modelli Gemini
Tutti i modelli Gemini diversi da Gemini 2.0 o Gemini 2.5 vengono fatturati in base alle modalità, ad esempio caratteri, immagini, secondi di video/audio. L'input di testo viene addebitato per ogni 1000 caratteri di input (prompt) e per ogni 1000 caratteri di output (risposta). I caratteri vengono contati in base ai punti di codice UTF-8 e gli spazi bianchi vengono esclusi dal conteggio, con un risultato di circa 4 caratteri per token. Le richieste di previsione che portano a risposte filtrate vengono addebitate solo per l'input. Alla fine di ogni ciclo di fatturazione, le frazioni di un centesimo di dollaro (0,01 $) vengono arrotondate a un centesimo. L'input multimediale viene addebitato per immagine o per secondo (video). Se la richiesta non va a buon fine con un errore 400 o 500, non ti verranno addebitati i token utilizzati.
| Modello | Funzionalità | Tipo | Prezzo ( =< 128.000 token di input) |
Prezzo ( > 128.000 token di input) |
||
|---|---|---|---|---|---|---|
| Gemini 1.5 Flash | Multimodale | Input immagine Input video Input testo Input audio |
$0,00002 per immagine $0,00002 al secondo $0,00001875 per 1000 caratteri $0,000002 al secondo |
$0,00004 per immagine $0,00004 al secondo $0,0000375 per 1000 caratteri $0,000004 al secondo |
||
| Output di testo | $0,000075 per 1000 caratteri | $0,00015 per 1000 caratteri | ||||
| Ottimizzazione* | Token di addestramento | $8 per M token | ||||
| Gemini 1.5 Pro | Multimodale | Input immagine Input video Input testo Input audio |
$0,00032875 per immagine $0,00032875 al secondo $0,0003125 per 1000 caratteri $0,00003125 al secondo |
$0,0006575 per immagine $0,0006575 al secondo $0,000625 per 1000 caratteri $0,0000625 al secondo |
||
| Output di testo | $0,00125 per 1000 caratteri | $0,0025 per 1000 caratteri | ||||
| Ottimizzazione* | Token di addestramento | $80 / M token | ||||
| Gemini 1.0 Pro | Multimodale | Input immagine Input video Input testo |
$0,0025 per immagine $0,002 al secondo $0,000125 per 1000 caratteri |
|||
| Output di testo | $0,000375 per 1000 caratteri | |||||
| Grounding con la Ricerca Google | Testo | 35$per 1000 prompt basati su dati. Un prompt basato su dati è una richiesta inviata a Gemini che esegue una o più query nella Ricerca Google.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati a terra al giorno. |
||||
| Grounding web per aziende | Testo | 45$per 1000 prompt ancorati. Un prompt basato è una richiesta inviata a Gemini che esegue una o più query a Web Grounding for enterprise*. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo costo per un prompt fondato. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati a terra al giorno. |
||||
| Grounding con i tuoi dati | Testo | 2,5 $ per 1000 richieste a partire dal 16 giugno 2025. |
||||
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli
SKU di Cloud Platform.
* Se il contesto di una query è più lungo di 128.000, tutti i token vengono addebitati alle tariffe per contesto lungo.
* I modelli Gemini sono disponibili in modalità batch con uno sconto del 50%.
* Gemini 1.0 Pro supporta solo una finestra contestuale fino a 32.000 token.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* Il grounding con la Ricerca Google e il grounding web per le aziende vengono fatturati solo quando un prompt restituisce correttamente risultati web (ovvero risultati contenenti almeno un URL di supporto per il grounding dal web). Le tariffe di utilizzo del modello Gemini vengono applicate separatamente.
Imagen
Con Imagen su Vertex AI, puoi generare nuove immagini e modificare quelle esistenti in base ai prompt di testo che fornisci oppure modificare solo parti di immagini utilizzando un'area di maschera che definisci insieme a una serie di altre funzionalità.
| Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
|---|---|---|---|---|---|
| Imagen 4 Ultra | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | 0,06 $ per immagine |
| Imagen 4 | Upscale | Aumenta la risoluzione di un'immagine generata a 2K, 3K e 4K | Immagine | Immagine | 0,06 $ per immagine |
| Imagen 4 | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.04 per immagine |
| Imagen 4 Fast | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.02 per immagine |
| Imagen 3 | Generazione di immagini | Genera un'immagine Modifica un'immagine Personalizza un'immagine |
Prompt di testo | Immagine | $0.04 per immagine |
| Imagen 3 Fast | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.02 per immagine |
| Imagen 2, Imagen 1 | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.020 per immagine |
| Imagen 2, Imagen 1 | Modifica delle immagini | Modifica un'immagine utilizzando l'approccio con o senza maschera | Prompt immagine/testo | Immagine | $0.020 per immagine |
| Imagen 1 | Upscale | Aumenta la risoluzione di un'immagine generata a 2K e 4K | Immagine | Immagine | $0.003 per immagine |
| Imagen 1 | Ottimizzazione | Consenti l'utilizzo di un "soggetto" fornito dall'utente nei prompt di Imagen (addestramento few-shot) | Soggetti con identificatore di testo e 4-8 immagini per soggetto | Modello ottimizzato (dopo l'addestramento con soggetti forniti dall'utente) | $ per ora nodo (prezzi dell'addestramento personalizzato di Vertex AI) |
| Imagen | Didascalia visiva | Genera una didascalia di testo breve o lunga per un'immagine | Immagine | Didascalia testuale | $0.0015/immagine |
| Imagen | Visual Question Answering | Fornisci una risposta basata su una domanda che fa riferimento a un'immagine | Prompt immagine/testo | Risposta di testo | $0.0015/immagine |
| Imagen | Ricontestualizzazione del prodotto | Reimmagina i prodotti in una nuova scena | 1-3 immagini dello stesso prodotto e un prompt di testo che descriva la scena desiderata | Immagine | 0,12 $ per immagine |
| Prova virtuale di Vertex | Crea immagini di persone che indossano vestiti diversi | 1 immagine di una persona e 1 immagine di un capo di abbigliamento | Immagine | 0,06 $ per immagine |
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Veo
Veo crea video di altissima qualità su un'ampia gamma di soggetti e stili, con una migliore comprensione della fisica del mondo reale e delle sfumature del movimento e dell'espressione umana.
| Modello | Funzionalità | Descrizione | Input | Output | Risoluzione di output | Prezzo |
|---|---|---|---|---|---|---|
| Veo 3.1 | Generazione di video e audio | Genera video di alta qualità con effetti sonori/vocali sincronizzati da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video + audio | 720p, 1080p | 0,40 $/secondo |
| Veo 3.1 | Generazione di video | Genera video di alta qualità da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video | 720p, 1080p | 0,20 $/secondo |
| Veo 3.1 Fast | Generazione di video e audio | Genera più velocemente video con effetti sonori/vocali sincronizzati da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video + audio | 720p, 1080p | 0,15 $/secondo |
| Veo 3.1 Fast | Generazione di video | Genera video da un prompt di testo o da un'immagine di riferimento più velocemente | Prompt di testo/immagine | Video | 720p, 1080p | 0,10 $/secondo |
| Veo 3 | Generazione di video e audio | Genera video di alta qualità con effetti sonori/vocali sincronizzati da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video + audio | 720p, 1080p | 0,40 $/secondo |
| Veo 3 | Generazione di video | Genera video di alta qualità da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video | 720p, 1080p | 0,20 $/secondo |
| Veo 3 Fast | Generazione di video e audio | Genera più velocemente video con effetti sonori/vocali sincronizzati da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video + audio | 720p, 1080p | 0,15 $/secondo |
| Veo 3 Fast | Generazione di video | Genera video da un prompt di testo o da un'immagine di riferimento più velocemente | Prompt di testo/immagine | Video | 720p, 1080p | 0,10 $/secondo |
| Veo 2 | Generazione di video | Genera video da un prompt di testo o da un'immagine di riferimento | Prompt di testo/immagine | Video | 720p | 0,50 $/secondo |
| Veo 2 | Controlli avanzati | Genera video tramite l'interpolazione dei frame di inizio e fine, estendi i video generati e applica i controlli della fotocamera | Prompt di testo/immagine/video | Video | 720p | 0,50 $/secondo |
Lyria
Lyria 2 offre una generazione di musica strumentale di alta qualità, ideale per composizioni sofisticate ed esplorazioni creative dettagliate in cui l'output sfumato è fondamentale.
| Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
|---|---|---|---|---|---|
| Lyria 2 | Generazione di musica | Genera musica da un prompt di testo | Prompt di testo | Musica | 0,06 $ ogni 30 secondi |
Comprendere i costi di incorporamento per le applicazioni di AI
| Modello | Tipo | Regione | Prezzo per 1000 token di input |
|---|---|---|---|
| Incorporamento di Gemini | Input | Globale |
|
| Output | Globale |
|
| Modello | Tipo | Regione | Prezzo per 1000 caratteri |
|---|---|---|---|
| Incorporamenti per il testo (escluso Gemini Embedding) |
Input | Globale |
|
| Output | Globale |
|
| Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
|---|---|---|---|---|---|
| multimodalembedding | Incorporamenti per multimodale: testo | Genera incorporamenti utilizzando il testo come input | Testo | Incorporamenti | $0.0002 per 1000 caratteri inseriti |
| Incorporamenti per multimodale: immagine | Genera incorporamenti utilizzando l'immagine come input | Immagine | Incorporamenti | $0.0001 per immagine in input | |
| Incorporamenti per multimodale: video e altro | Video Plus | Video | Incorporamenti (fino a 15 incorporamenti al minuto di video) | $0.0020 per secondo di video | |
| Incorporamenti per multimodale: standard video | Standard video | Video | Incorporamenti (fino a 8 incorporamenti per minuto di video) | $0,0010 per secondo di video | |
| Incorporamenti per multimodale: video essenziale | Video Essential | Video | Incorporamenti (fino a 4 incorporamenti per minuto di video) | $0.0005 per secondo di video |
| Modello open source | Tipo | Prezzo per 1000 token di input |
|---|---|---|
| multilingual-e5-small | Input: Output: Input batch: Output batch: |
Richieste online: 0,000015 $ Richieste online: nessun addebito Richieste batch: 0,0000075 $ Richieste batch: nessun addebito |
| multilingual-e5-large | Input: Output: Input batch: Output batch: |
Richieste online: 0,000025 $ Richieste online: nessun addebito Richieste batch: 0,0000125 $ Richieste batch: nessun addebito |
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Prezzi per il completamento del codice di Vertex AI
L'AI generativa su Vertex AI addebita ogni 1000 caratteri di input (prompt) e ogni 1000 caratteri di output (risposta). I caratteri vengono contati in base ai punti di codice UTF-8 e gli spazi bianchi sono esclusi dal conteggio. Durante la fase di anteprima, gli addebiti sono scontati del 100%. Le richieste di previsione che portano a risposte filtrate vengono addebitate solo per l'input. Alla fine di ogni ciclo di fatturazione, le frazioni di un centesimo di dollaro (0,01 $) vengono arrotondate a un centesimo.
| Modello | Tipo | Regione | Prezzo per 1000 caratteri |
|---|---|---|---|
| Codey per il completamento del codice | Input | Globale |
|
| Output | Globale |
|
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Traduzione (testo)
Utilizzare l'API Vertex AI e il modello LLM di traduzione per tradurre il testo. Le traduzioni LLM tendono a essere più fluide e a suonare più umane rispetto ai modelli di traduzione classici, ma hanno un supporto linguistico più limitato (Scopri di più).
| Modello | Metodo | Utilizzo | Prezzo per milione di caratteri |
|---|---|---|---|
| LLM | Testo tradotto* | Il numero di caratteri di input al mese |
$10 ogni milione di caratteri* |
| Il numero di caratteri di output al mese |
$10 ogni milione di caratteri* |
I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli
SKU di Cloud Platform.
*Il prezzo è per carattere elaborato dal modello. Per informazioni dettagliate sui caratteri conteggiati, consulta Caratteri addebitati
Prezzo di archiviazione nella cache di contesto per la memorizzazione esplicita nella cache
| Modello | Funzionalità | Tipo | Prezzo (per 1 M di token) <= 200.000 token di input |
Prezzo (per 1 M di token) > 200.000 token di input |
|---|---|---|---|---|
| Gemini 3 Pro | Archiviazione cache di contesto | Input (testo, immagine, video, audio) | 4,5 $ (/M token/ora) | 4,5 $ (/M token/ora) |
| Gemini 2.5 Pro | Archiviazione cache di contesto | Input (testo, immagine, video, audio) | 4,5 $ (/M token/ora) | 4,5 $ (/M token/ora) |
| Gemini 2.5 Flash | Archiviazione cache di contesto | Input (testo, immagine, video, audio) | 1 $ (/M token/ora) | 1 $ (/M token/ora) |
| Gemini 2.5 Flash Lite | Archiviazione cache di contesto | Input (testo, immagine, video, audio) | 1 $ (/M token/ora) | 1 $ (/M token/ora) |
Modelli Gemini 2.0
Prezzi basati sui token
Modello |
Tipo |
Archiviazione (M tok-ora) |
Prezzo |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 1 Mln di token di input | 1,00 $ | $ 0,0375 | |
| 1 Mln di token audio di input | 1,00 $ | 0,25 $ | |
| 1 Mln di token di testo di output | ND | ND | |
Gemini 2.0 Flash Lite |
|||
| 1 Mln di token di input | 1,00 $ | 0,01875 $ | |
| 1 Mln di token audio di input | 1,00 $ | 0,01875 $ | |
| 1 Mln di token di testo di output | ND | ND |
Prezzi basati sulla modalità
I prezzi delle modalità riportati di seguito si basano su casi d'uso medi solo a scopo di riferimento. La fatturazione effettiva si baserà solo sui token:
- 4 caratteri generano circa 1 token di testo, inclusi gli spazi.
- Per un'immagine 1024x1024, consuma 1290 token. Il conteggio dei token per immagine varia in base alla risoluzione dell'immagine. Per maggiori informazioni su come calcolare i token, puoi consultare la nostra documentazione.
- L'input video consuma 258 token al secondo alla frequenza di campionamento di un frame al secondo. I video con audio vengono fatturati sia per i token video che per i token audio.
- L'input audio consuma 25 token al secondo senza timestamp.
Modello |
Tipo |
Archiviazione (modalità-ora) |
Prezzo |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Testo di input ($/M di caratteri) | 0,25 $ | 0,009375 $ | |
| Immagine di input ($/immagine) | 0,00129 $ | 0,000048375 $ | |
| Video di input ($/sec) | 0,000258 $ | 0,000009675 $ | |
| Audio di input ($/sec) | 0,000025 $ | 0,00000625 $ | |
| Testo di output ($/M di caratteri) | ND | ND | |
Gemini 2.0 Flash Lite |
|||
| Testo di input ($/M di caratteri) | 0,25 $ | 0,0046875 $ | |
| Immagine di input ($/immagine) | 0,00129 $ | 0,0000241875 $ | |
| Video di input ($/sec) | 0,000258 $ | 0,000009675 $ | |
| Audio di input ($/sec) | 0,000258 $ | 0,0000048375 $ | |
| Testo di output ($/M di caratteri) | ND | ND | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash include fino a 1500 richieste basate a terra al giorno senza costi aggiuntivi. Le richieste basate su dati che superano le 1500 al giorno vengono fatturate a 35 $per 1000 richieste (fino a 1 milione di richieste al giorno). Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di richieste al giorno. |
||
Grounding web per aziende |
45 $ per 1000 richieste (fino a 1 milione di richieste al giorno) a partire dal 5 maggio 2025. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di richieste al giorno. |
||
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli
SKU di Cloud Platform.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* La messa a terra con la Ricerca Google viene fatturata solo per le richieste che restituiscono risultati contenenti almeno un URL di supporto per la messa a terra dal web. Si applicano anche le tariffe standard per l'utilizzo del modello Gemini.
Throughput riservato
La portata sottoposta a provisioning garantisce la portata per le tue esigenze di AI generativa e viene negoziata tramite unità della scala di AI generativa, o GSU. Scopri di più sulla quantità di velocità effettiva fornita da ogni GSU qui e utilizza il nostro strumento di stima online qui.
| Durata | Prezzo per GSU | Per |
|---|---|---|
| Impegno di 1 settimana | 1200 $ | Settimana |
| Impegno di 1 mese | 2700 $ | Mese |
| Impegno di 3 mesi | 2400 $ | Mese |
| Impegno di 1 anno | $ 2000 | Mese |
Esempio di calcolo dei costi
Un utente deve assicurarsi di poter supportare 10 query al secondo (QPS) di una query con input di 1000 token di testo e 500 token audio e ricevere un output di 300 token di testo utilizzando gemini-2.0-flash.
Utilizzando la tabella della velocità effettiva e della velocità di esaurimento per gemini-2.0-flash, sappiamo che la velocità di esaurimento di un token di testo di input è di 1 token, quella di un token audio di input è di 7 token e quella di un token di testo di output è di 4 token.
Il totale dei token di input dell'utente è 1000* (1 token per token di testo di input) + 500* (7 token per token audio di input) = 4500 token di input con riduzione. Il totale dei token di output dell'utente è 300* (4 token per token di testo di output) = 1200 token di output con adeguamento del consumo. Sommandoli otteniamo 4500 token di input con burn-down regolato + 1200 token di output con burn-down regolato = 5700 token totali per query.
Moltiplicando il numero totale di token per query per il QPS otteniamo 5700 token totali per query * 10 QPS = 57.000 token totali al secondo.
Dividendo questo valore per la velocità effettiva totale al secondo per GSU otteniamo 57.000 token totali al secondo ÷ 3360 velocità effettiva al secondo per GSU = 16,96 GSU. L'incremento minimo di GSU per questo modello è 1, quindi l'utente avrebbe bisogno di 17 GSU.
Se l'utente volesse mantenere questa velocità effettiva per 1 settimana, il costo sarebbe di 1200 $ * 17 GSU = 20.400 $a settimana. Se volessero mantenere questa velocità effettiva per 1 mese, il costo sarebbe di 2700 $ * 17 GSU = 45.900 $al mese. Se volessero mantenere questa velocità effettiva per 3 mesi, il costo sarebbe di 2400 $ * 17 GSU = 40.800 $al mese. Infine, se volessero mantenere questa velocità effettiva per 1 anno, il costo sarebbe di 2000 $ * 17 GSU = 34.000 $al mese.
Ottimizzazione del modello
L'ottimizzazione del modello è un modo efficace per personalizzare i modelli di grandi dimensioni in base alle tue attività. È un passaggio fondamentale per migliorare la qualità e l'efficienza del modello. La messa a punto del modello offre i seguenti vantaggi:
- Qualità superiore per le tue attività specifiche
- Maggiore robustezza del modello
- Latenza e costi di inferenza inferiori grazie a prompt più brevi
L'ottimizzazione viene addebitata per milione di token di addestramento. I token di addestramento vengono calcolati in base al numero totale di token nel set di dati di addestramento, moltiplicato per il numero di epoche. Per l'inferenza del modello, l'endpoint del modello ottimizzato Gemini ha lo stesso prezzo di previsione del modello di base.
| Modello | Tipo | Prezzo (per 1 Mln di token di addestramento) |
|---|---|---|
| Gemini 2.5 Pro | Fine-tuning supervisionato | 25 $ |
| Gemini 2.5 Flash | Fine-tuning supervisionato Ottimizzazione delle preferenze |
5 $ |
| Gemini 2.5 Flash Lite | Fine-tuning supervisionato Ottimizzazione delle preferenze |
1,5 $ |
| Gemma 3 27B IT | Fine-tuning supervisionato | 6,83 $ |
| Llama 3.1 8B | Fine-tuning supervisionato | 0,67 $ |
| Llama 3.2 1B | Fine-tuning supervisionato | $0,28 |
| Llama 3.2 3B | Fine-tuning supervisionato | 0,61 $ |
| Llama 3.3 70B | Fine-tuning supervisionato | 6,72 $ |
| Llama 4 Scout 17B 16E | Fine-tuning supervisionato | 5,77 $ |
| Qwen 3 32B | Fine-tuning supervisionato | 6,57 $ |
* I token di addestramento vengono calcolati in base al numero totale di token nel set di dati di addestramento, moltiplicato per il numero di epoche.
* Un endpoint del modello ottimizzato Gemini ha lo stesso prezzo di previsione del modello di base.
Confronta i prezzi dei modelli dei partner su Vertex AI
I modelli dei partner sono un elenco selezionato di modelli di AI generativa sviluppati dai partner di Google. I modelli dei partner vengono offerti come API gestite. Per ulteriori informazioni, vedi Panoramica dei modelli partner. Le sezioni seguenti elencano i dettagli dei prezzi per i modelli dei partner Google.
Modelli di AI21 Labs
| Modello | Prezzi |
|---|---|
| Jamba 1.5 Large (deprecato) | Input: $2 / milione di token Output: $8 / milione di token |
| Jamba 1.5 Mini (deprecato) | Input: $0.20 / milione di token Output: $0.40 / milione di token |
Modelli Claude di Anthropic
Modelli con prezzi regionali
Globale
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Opus 4.5 | Input: 5,00 $ Output: 25,00 $ Input batch: 2,50 $ Output batch: 12,50 $ Scrittura cache 5 min: 6,25 $ Scrittura cache 1 ora: 10,00 $ Hit cache: 0,50 $ Scrittura cache batch 5 min: 3,125 $ Scrittura cache batch 1 ora: 5,00 $ Hit cache batch: 0,25 $ |
|
| Claude Sonnet 4.5 | Input: 3,00 $ Output: 15,00 $ Input batch: 1,50 $ Output batch: 7,50 $ Scrittura cache 5 min: 3,75 $ Scrittura cache 1 ora: 6,00 $ Hit cache: 0,30 $ Scrittura cache batch: 1,88 $ Hit cache batch: 0,15 $ |
Input: 6,00 $ Output: 22,50 $ Input batch: 3,00 $ Output batch: 11,25 $ Scrittura cache 5 min: 7,50 $ Scrittura cache 1 ora: 12,00 $ Hit cache: 0,60 $ Scrittura cache batch: 3,75 $ Hit cache batch: 0,30 $ |
| Claude Haiku 4.5 | Input: 1,00 $ Output: 5,00 $ Input batch: 0,50 $ Output batch: 2,50 $ Scrittura cache 5 m: 1,25 $ Scrittura cache 1 h: 2,00 $ Hit cache: 0,10 $ Scrittura cache batch: 0,625 $ Hit cache batch: 0,05 $ |
us-east5
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Opus 4.5 | Input: 5,50 $ Output: 27,50 $ Input batch: 2,75 $ Output batch: 13,75 $ Scrittura cache 5 min: 6,875 $ Scrittura cache 1 ora: 11,00 $ Hit cache: 0,55 $ Scrittura cache batch 5 min: 3,438 $ Scrittura cache batch 1 ora: 5,50 $ Hit cache batch: 0,275 $ |
|
| Claude Sonnet 4.5 | Input: 3,30 $ Output: 16,50 $ Input batch: 1,65 $ Output batch: 8,25 $ Scrittura cache 5 min: 4,13 $ Scrittura cache 1 ora: 6,60 $ Hit cache: 0,33 $ Scrittura cache batch: 2,06 $ Hit cache batch: 0,17 $ |
Input: 6,60 $ Output: 24,75 $ Input batch: 3,30 $ Output batch: 12,38 $ Scrittura cache 5 min: 8,25 $ Scrittura cache 1 ora: 13,20 $ Hit cache: 0,66 $ Scrittura cache batch: 4,13 $ Hit cache batch: 0,33 $ |
| Claude Haiku 4.5 | Input: 1,10 $ Output: 5,50 $ Input batch: 0,55 $ Output batch: 2,75 $ Scrittura cache 5 m: 1,375 $ Scrittura cache 1 h: 2,20 $ Scrittura cache: 1,375 $ Hit cache: 0,11 $ Scrittura cache batch: 0,688 $ Hit cache batch: 0,055 $ |
europe-west1
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Opus 4.5 | Input: 5,50 $ Output: 27,50 $ Input batch: 2,75 $ Output batch: 13,75 $ Scrittura cache 5 min: 6,875 $ Scrittura cache 1 ora: 11,00 $ Hit cache: 0,55 $ Scrittura cache batch 5 min: 3,438 $ Scrittura cache batch 1 ora: 5,50 $ Hit cache batch: 0,275 $ |
|
| Claude Sonnet 4.5 | Input: 3,30 $ Output: 16,50 $ Input batch: 1,65 $ Output batch: 8,25 $ Scrittura cache 5 min: 4,13 $ Scrittura cache 1 ora: 6,60 $ Hit cache: 0,33 $ Scrittura cache batch: 2,06 $ Hit cache batch: 0,17 $ |
Input: 6,60 $ Output: 24,75 $ Input batch: 3,30 $ Output batch: 12,38 $ Scrittura cache 5 min: 8,25 $ Scrittura cache 1 ora: 13,20 $ Hit cache: 0,66 $ Scrittura cache batch: 4,13 $ Hit cache batch: 0,33 $ |
| Claude Haiku 4.5 | Input: 1,10 $ Output: 5,50 $ Input batch: 0,55 $ Output batch: 2,75 $ Scrittura cache 5 min: 1,375 $ Scrittura cache 1 ora: 2,20 $ Hit cache: 0,11 $ Scrittura cache batch: 0,688 $ Hit cache batch: 0,055 $ |
asia-southeast1
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Opus 4.5 | Input: 5,50 $ Output: 27,50 $ Input batch: 2,75 $ Output batch: 13,75 $ Scrittura cache 5 min: 6,875 $ Scrittura cache 1 ora: 11,00 $ Hit cache: 0,55 $ Scrittura cache batch 5 min: 3,438 $ Scrittura cache batch 1 ora: 5,50 $ Hit cache batch: 0,275 $ |
|
| Claude Sonnet 4.5 | Input: 3,30 $ Output: 16,50 $ Input batch: 1,65 $ Output batch: 8,25 $ Scrittura cache 5 min: 4,13 $ Scrittura cache 1 ora: 6,60 $ Hit cache: 0,33 $ Scrittura cache batch: 2,06 $ Hit cache batch: 0,17 $ |
Input: 6,60 $ Output: 24,75 $ Input batch: 3,30 $ Output batch: 12,38 $ Scrittura cache 5 min: 8,25 $ Scrittura cache 1 ora: 13,20 $ Hit cache: 0,66 $ Scrittura cache batch: 4,13 $ Hit cache batch: 0,33 $ |
asia-east1
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Haiku 4.5 | Input: 1,10 $ Output: 5,50 $ Input batch: 0,55 $ Output batch: 2,75 $ Scrittura cache 5 m: 1,375 $ Scrittura cache 1 h: 2,20 $ Scrittura cache: 1,375 $ Hit cache: 0,11 $ Scrittura cache batch: 0,688 $ Hit cache batch: 0,055 $ |
* Se il contesto di input di una query è maggiore o uguale a 200.000 token, tutti i token (input e output) vengono addebitati alle tariffe per contesto lungo.
Modelli con prezzi uniformi in tutte le regioni
| Modello | Prezzo (per 1 M di token) < 200.000 token di input | Prezzo (per 1 M di token) >= 200.000 token di input |
|---|---|---|
| Claude Opus 4.1 | Input: 15 $ Output: 75 $ Input batch: 7,50 $ Output batch: 37,50 $ Scrittura cache 5 min: 18,75 $ Scrittura cache 1 ora: 30 $ Hit cache: 1,50 $ Scrittura cache batch: 9,375 $ Hit cache batch: 0,75 $ |
N/D |
| Claude Opus 4 | Input: 15 $ Output: 75 $ Input batch: 7,50 $ Output batch: 37,50 $ Scrittura cache 5 min: 18,75 $ Scrittura cache 1 ora: 30 $ Hit cache: 1,50 $ Scrittura cache batch: 9,375 $ Hit cache batch: 0,75 $ |
N/D |
| Claude Sonnet 4 | Input: 3 $ Output: 15 $ Input in batch: 1,50 $ Output in batch: 7,50 $ Scrittura cache 5 min: 3,75 $ Scrittura cache 1 ora: 6,00 $ Hit cache: 0,30 $ Scrittura cache in batch: 1,875 $ Hit cache in batch: 0,15 $ |
Input: 6 $ Output: 22,50 $ Input batch: 3 $ Output batch: 11,25 $ Scrittura cache 5 min: 7,50 $ Scrittura cache 1 ora: 12,00 $ Hit cache: 0,60 $ Scrittura cache batch: 3,75 $ Hit cache batch: 0,30 $ |
| Claude 3.5 Haiku | Input: 0,80 $ Output: 4 $ Input batch: 0,40 $ Output batch: 2 $ Scrittura cache 5 min: 1 $ Scrittura cache 1 ora: 1,60 $ Hit cache: 0,08 $ Scrittura cache batch: 0,50 $ Hit cache batch: 0,04 $ |
N/D |
| Claude 3 Haiku | Input: 0,25 $ Output: 1,25 $ 5 m Cache Write: 0,30 $ 1 h Cache Write: 0,50 $ Cache Hit: 0,03 $ | N/D |
| Claude 3.7 Sonnet (deprecato) | Input: 3 $ Output: 15 $ Input batch: 1,50 $ Output batch: 7,50 $ Scrittura cache: 3,75 $ Hit cache: 0,30 $ Scrittura cache batch: 1,875 $ Hit cache batch: 0,15 $ |
N/D |
| Claude 3.5 Sonnet v2 (deprecato) | Input: 3 $ Output: 15 $ Input batch: 1,50 $ Output batch: 7,50 $ Scrittura cache: 3,75 $ Hit cache: 0,30 $ Scrittura cache batch: 1,875 $ Hit cache batch: 0,15 $ |
N/D |
| Claude 3.5 Sonnet (deprecato) | Input: 3 $ Output: 15 $ Scrittura cache: 3,75 $ Hit cache: 0,30 $ |
N/D |
| Claude 3 Opus (obsoleto) | Input: 15 $ Output: 75 $ Scrittura cache: 18,75 $ Hit cache: 1,50 $ |
N/D |
* Se il contesto di input di una query è maggiore o uguale a 200.000 token, tutti i token (input e output) vengono addebitati alle tariffe per contesto lungo.
Prezzi degli strumenti
| Strumento | Prezzo |
|---|---|
| Richiesta di ricerca web | 10$per 1000 ricerche
Modelli supportati: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 e Claude Opus 4. |
* Se il contesto di input di una query è maggiore o uguale a 200.000 token, tutti i token (input e output) vengono addebitati alle tariffe per contesto lungo.
Modelli di Deepseek
| Modello | Prezzi |
|---|---|
| DeepSeek-V3.1 | Input: 0,60 $ per milione di token Output: 1,70 $ per milione di token Input batch: 0,30 $ per milione di token Output batch: 0,85 $ per milione di token |
| DeepSeek-R1 (0528) | Input: 1,35 $ per milione di token Output: 5,40 $ per milione di token Input batch: 0,675 $ per milione di token Output batch: 2,70 $ per milione di token |
| DeepSeek-OCR * | Input: 0,30 $ per milione di token (o 0,0003 $per pagina) Output: 1,20 $ per milione di token (o 0,00012 $per pagina) |
- Disponibile senza costi aggiuntivi fino al 10 novembre 2025.
Modelli di MiniMax
| Modello | Prezzi |
|---|---|
| MiniMax-M2 * | Input: 0,30 $ per milione di token Output: 1,20 $ per milione di token |
- Disponibile senza costi aggiuntivi fino al 10 novembre 2025.
Modelli di Moonshot
| Modello | Prezzi |
|---|---|
| Kimi-K2-Thinking * | Input: 0,60 $ per milione di token Output: 2,50 $ per milione di token |
- Disponibile senza costi aggiuntivi fino al 17 novembre 2025.
Modelli di Qwen
| Modello | Prezzi |
|---|---|
| Qwen3-Next-80B-Thinking | Input: 0,15 $ per milione di token Output: 1,20 $ per milione di token |
| Qwen3-Next-80B-Instruct | Input: 0,15 $ per milione di token Output: 1,20 $ per milione di token |
| Qwen3-Coder-480B-A35B-Instruct | Input: 0,22 $ per milione di token Output: 1,80 $ per milione di token Input batch: 0,11 $ per milione di token Output batch: 0,90 $ per milione di token |
| Qwen3-235B-A22B-Instruct-2507 | Input: 0,22 $ per milione di token Output: 0,88 $ per milione di token Input batch: 0,11 $ per milione di token Output batch: 0,44 $ per milione di token |
Modelli di OpenAI
| Modello | Prezzi |
|---|---|
| gpt-oss-120b | Input: 0,09 $ per milione di token Output: 0,36 $ per milione di token Input batch: 0,045 $ per milione di token Output batch: 0,18 $ per milione di token |
| gpt-oss-20b | Input: 0,07 $ per milione di token Output: 0,25 $ per milione di token Input batch: 0,035 $ per milione di token Output batch: 0,125 $ per milione di token |
Modelli Llama di Meta
| Modello | Prezzi |
|---|---|
| Llama 3.1 405B | Input: $5.00 / milione di token Output: $16.00 / milione di token |
| Llama 3.3 70B | Input: 0,72 $ per milione di token Output: 0,72 $ per milione di token Input batch: 0,36 $ per milione di token Output batch: 0,36 $ per milione di token |
| Lama 4 Scout | Input: 0,25 $ per milione di token Output: 0,70 $ per milione di token Input batch: 0,125 $ per milione di token Output batch: 0,35 $ per milione di token |
| Llama 4 Maverick | Input: 0,35 $ per milione di token Output: 1,15 $ per milione di token Input batch: 0,175 $ per milione di token Output batch: 0,575 $ per milione di token |
Modelli di Mistral AI
| Modello | Prezzi |
|---|---|
| Mistral OCR (25.05) | Input: 0,0005 $ per milione di token (o 0,0005 $per pagina) Output: 0,0005 $ per milione di token (o 0,0005 $per pagina) |
| Mistral Medium 3 | Input: 0,40 $ per milione di token Output: 2,00 $ per milione di token |
| Mistral Small 3.1 (25.03) | Input: 0,10 $ per milione di token Output: 0,30 $ per milione di token |
| Mistral Large (24.11) (deprecato) | Input: $2.00 / milione di token Output: $6.00 / milione di token |
| Codestral 2 | Input: $0.30 / milione di token Output: $0.90 / milione di token |
| Codestral (25.01) (deprecato) | Input: $0.30 / milione di token Output: $0.90 / milione di token |