Le seguenti tabelle mostrano i modelli che supportano la portata pianificata, la portata per ogni unità di scala dell'AI generativa (GSU) e le percentuali di burndown per ogni modello.
Modelli Google
Questa tabella mostra la portata, l'incremento degli acquisti e i tassi di burndown per i modelli Google che supportano la funzionalità Throughput Provisioning. I modelli Google vengono misurati in caratteri al secondo, ovvero i caratteri di input del prompt e di output di testo generato in tutte le richieste al secondo.
Modello | Throughput per GSU (caratteri/sec) | Incremento minimo di acquisto di GSU | Tassi di burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Finestra contestuale inferiore o uguale a 128.000 token: 54.000 Finestra contestuale superiore a 128.000 token: 27.000 |
1 | Finestra contestuale di massimo 128.000 token: 1 carattere di input = 1 carattere 1 carattere di output = 4 caratteri 1 immagine = 1067 caratteri 1 video al secondo = 1067 caratteri 1 audio al secondo = 107 caratteri |
Finestra contestuale di più di 128.000 token: 1 carattere di input = 2 caratteri 1 carattere di output = 8 caratteri 1 immagine = 2134 caratteri 1 video al secondo = 2134 caratteri 1 audio al secondo = 214 caratteri |
Gemini 1.5 Pro | 800 | 1 | Finestra di contesto contenente meno o uguale a 128.000 token: 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri 1 immagine = 1052 caratteri 1 video al secondo = 1052 caratteri 1 audio al secondo = 100 caratteri |
Finestra contestuale di più di 128.000 token: 1 carattere di input = 2 caratteri 1 carattere di output = 6 caratteri 1 immagine = 2104 caratteri 1 video al secondo = 2104 caratteri 1 audio al secondo = 200 caratteri |
Gemini 1.0 Pro | 8000 | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri 1 immagine = 20.000 caratteri 1 video al secondo = 16.000 caratteri |
|
Imagen 3 | 0,025 La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec. |
1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. | |
Imagen 3 Fast | 0,05 La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec. |
1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. | |
Imagen 2 | 0,05 La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec. |
1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. | |
Imagen 2 Modifica | 0,05 La velocità effettiva viene misurata in immagini/sec anziché in caratteri/sec. |
1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. | |
MedLM medium | 2000 | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 2 caratteri |
|
MedLM grande | 200 | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
|
MedLM large 1.5 | 200 | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
Per ulteriori informazioni sulle località supportate, consulta Località disponibili.
Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni sulla disponibilità e sulle date di ritiro dei modelli, consulta Modelli Google.
Funzionalità in anteprima
Le funzionalità di anteprima per la velocità effettiva sottoposta a provisioning richiedono l'approvazione dell'accesso. Per richiedere l'accesso, compila e invia il modulo di controllo dell'accesso al throughput provisionato.
La versione di anteprima fornisce quanto segue per i modelli Google:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate supervisionate di questi modelli di base.
Gli endpoint dei modelli perfezionati supervisionati e il relativo modello di base corrispondente vengono conteggiati per la stessa quota di throughput pianificato.
Ad esempio, il throughput pianificato acquistato per
gemini-1.5-pro-002
per un progetto specifico dà la priorità alle richieste effettuate da versioni perfezionate supervisionate digemini-1.5-pro-002
create all'interno del progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.Il throughput riservato può essere acquistato per un periodo di una settimana invece di un abbonamento mensile, con la possibilità di fornire una data di inizio entro due settimane dal momento in cui effettui l'ordine.
Modelli legacy di Google
Consulta Modelli precedenti che supportano il throughput pianificato.
Modelli di partner
Questa tabella mostra la portata, l'incremento degli acquisti e i tassi di burndown per i modelli partner che supportano la funzionalità Throughput pianificato. I modelli Claude vengono misurati in token al secondo, che è definito come il totale dei token di input e di output per tutte le richieste al secondo.
Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di burndown |
---|---|---|---|---|
Claude 3.5 Sonnet v2 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3.5 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Per informazioni sulle località supportate, consulta la pagina Disponibilità delle regioni di Anthropic Claude. Per ordinare il throughput pianificato per i modelli Anthropic, contatta il rappresentante dell'account Google Cloud .