Modelli supportati

Le seguenti tabelle mostrano i modelli che supportano la portata pianificata, la portata per ogni unità di scala dell'AI generativa (GSU) e le percentuali di burndown per ogni modello.

Modelli Google

Questa tabella mostra la portata, l'incremento degli acquisti e i tassi di burndown per i modelli Google che supportano la funzionalità Throughput Provisioning. I modelli Google vengono misurati in caratteri al secondo, ovvero i caratteri di input del prompt e di output di testo generato in tutte le richieste al secondo.

Modello Throughput per GSU (caratteri/sec) Incremento minimo di acquisto di GSU Tassi di burndown
Gemini 1.5 Flash Finestra contestuale inferiore o uguale a 128.000 token:
54.000

Finestra contestuale superiore a 128.000 token:
27.000
1 Finestra contestuale di massimo 128.000 token:
1 carattere di input = 1 carattere
1 carattere di output = 4 caratteri
1 immagine = 1067 caratteri
1 video al secondo = 1067 caratteri
1 audio al secondo = 107 caratteri
Finestra contestuale di più di 128.000 token:
1 carattere di input = 2 caratteri
1 carattere di output = 8 caratteri
1 immagine = 2134 caratteri
1 video al secondo = 2134 caratteri
1 audio al secondo = 214 caratteri
Gemini 1.5 Pro 800 1 Finestra di contesto contenente meno o uguale a 128.000 token:
1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 1052 caratteri
1 video al secondo = 1052 caratteri
1 audio al secondo = 100 caratteri
Finestra contestuale di più di 128.000 token:
1 carattere di input = 2 caratteri
1 carattere di output = 6 caratteri
1 immagine = 2104 caratteri
1 video al secondo = 2104 caratteri
1 audio al secondo = 200 caratteri
Gemini 1.0 Pro 8000 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
1 immagine = 20.000 caratteri
1 video al secondo = 16.000 caratteri
Imagen 3 0,025
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato.
Imagen 3 Fast 0,05
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato.
Imagen 2 0,05
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato.
Imagen 2 Modifica 0,05
La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec.
1 Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato.
MedLM medium 2000 1 1 carattere di input = 1 carattere
1 carattere di output = 2 caratteri
MedLM grande 200 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri
MedLM large 1.5 200 1 1 carattere di input = 1 carattere
1 carattere di output = 3 caratteri

Per ulteriori informazioni sulle località supportate, consulta Località disponibili.

Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni sulla disponibilità e sulle date di ritiro dei modelli, consulta Modelli Google.

Funzionalità in anteprima

Le funzionalità di anteprima per la velocità effettiva sottoposta a provisioning richiedono l'approvazione dell'accesso. Per richiedere l'accesso, compila e invia il modulo di controllo dell'accesso al throughput provisionato.

La versione di anteprima fornisce quanto segue per i modelli Google:

  • Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate supervisionate di questi modelli di base.

  • Gli endpoint dei modelli perfezionati supervisionati e il relativo modello di base corrispondente vengono conteggiati per la stessa quota di throughput pianificato.

    Ad esempio, il throughput pianificato acquistato per gemini-1.5-pro-002 per un progetto specifico dà la priorità alle richieste effettuate da versioni perfezionate supervisionate di gemini-1.5-pro-002 create all'interno del progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.

  • Il throughput riservato può essere acquistato per un periodo di una settimana invece di un abbonamento mensile, con la possibilità di fornire una data di inizio entro due settimane dal momento in cui effettui l'ordine.

Modelli legacy di Google

Consulta Modelli precedenti che supportano il throughput pianificato.

Modelli di partner

Questa tabella mostra la portata, l'incremento degli acquisti e i tassi di burndown per i modelli partner che supportano la funzionalità Throughput pianificato. I modelli Claude vengono misurati in token al secondo, che è definito come il totale dei token di input e di output per tutte le richieste al secondo.

Modello Throughput per GSU (token/sec) Acquisto minimo di GSU Incremento dell'acquisto di GSU Tassi di burndown
Claude 3.5 Sonnet v2 di Anthropic 350 25 1 1 token di input = 1 token
1 token di output = 5 token
Claude 3.5 Haiku di Anthropic 2000 10 1 1 token di input = 1 token
1 token di output = 5 token
Claude 3 Opus di Anthropic 70 35 1 1 token di input = 1 token
1 token di output = 5 token
Claude 3 Haiku di Anthropic 4200 5 1 1 token di input = 1 token
1 token di output = 5 token
Claude 3.5 Sonnet di Anthropic 350 25 1 1 token di input = 1 token
1 token di output = 5 token

Per informazioni sulle località supportate, consulta la pagina Disponibilità delle regioni di Anthropic Claude. Per ordinare il throughput pianificato per i modelli Anthropic, contatta il rappresentante dell'account Google Cloud .

Passaggi successivi