Questa sezione illustra i concetti di unità di scala dell'AI generativa (GSU) e di tassi di burndown. Il Throughput riservato viene calcolato e valutato utilizzando le unità di scala di AI generativa (GSU) e le percentuali di burndown.
GSU e tasso di burndown
Un'unità della scala di AI generativa (GSU) è una misura della produttività per i prompt e le risposte. Questo valore specifica la quantità di throughput per il provisioning di un modello.
Un tasso di burndown è un rapporto che converte i caratteri di input e output in caratteri di input al secondo (throughput). Questo rapporto viene utilizzato per produrre un'unità standard per tutti i modelli.
Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'ammontare minimo dell'acquisto di GSU e sugli incrementi per ciascun modello, consulta la sezione Modelli supportati e tassi di burndown in questo documento.
Questa equazione mostra come viene calcolato il throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
La velocità in MB/s calcolata determina il numero di GSU necessarie per il tuo caso d'uso.
Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning
Per stimare le tue esigenze di throughput provisionato, utilizza lo strumento di stima nella console Google Cloud. L'esempio seguente illustra la procedura per stimare la quantità di throughput Provisioning per il modello. La regione non viene considerata nei calcoli di stima.
Questa tabella fornisce le percentuali di burndown per gemini-1.5-flash
che puoi utilizzare per seguire l'esempio.
Modello | Throughput per GSU (caratteri/sec) | Incremento minimo di acquisto di GSU | Tassi di burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Finestra contestuale inferiore o uguale a 128.000 token: 54.000 Finestra contestuale superiore a 128.000 token: 27.000 |
1 | Finestra contestuale di massimo 128.000 token: 1 carattere di input = 1 carattere 1 carattere di output = 4 caratteri 1 immagine = 1067 caratteri 1 video al secondo = 1067 caratteri 1 audio al secondo = 107 caratteri |
Finestra contestuale di più di 128.000 token: 1 carattere di input = 2 caratteri 1 carattere di output = 8 caratteri 1 immagine = 2134 caratteri 1 video al secondo = 2134 caratteri 1 audio al secondo = 214 caratteri |
Raccogliere i requisiti.
In questo esempio, il tuo requisito è assicurarti di poter inviare 2000 caratteri con 2 immagini e ricevere 300 caratteri di output per 10 query al secondo utilizzando
gemini-1.5-flash
.Questo passaggio significa che hai compreso il tuo caso d'uso, perché hai identificato le dimensioni degli input e degli output, il numero di query al secondo (QPS) e il tuo modello.
Per stimare la produttività, specifica il modello. In questo esempio, il modello è
gemini-1.5-flash
.Specifica il tipo di input e identifica il tasso di burndown. Utilizza la tabella delle percentuali di burndown per identificare la percentuale di burndown in base al tipo di input.
Il tasso di burndown di un'immagine per il modello
gemini-1.5-flash
è di 1.067 caratteri.
Calcola il throughput.
Moltiplica il numero di immagini per il tasso di burndown per il tipo di input per il tuo modello specifico.
2 immagini * 1067 caratteri di input per immagine = 2134 caratteri di input
Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di riduzione e individua il tasso di riduzione per i caratteri di output (quattro caratteri per carattere di output) per il tuo modello specifico (
gemini-1.5-flash
).300 caratteri di output * 4 caratteri per carattere di output = 1200 caratteri di input convertiti
Somma i totali.
2000 caratteri di input + 2134 caratteri di input convertiti per le immagini + 1200 caratteri di input convertiti per l'output = 5334 caratteri di input convertiti per query
Moltiplica i caratteri per query per il numero di query al secondo previste per ottenere il throughput totale al secondo.
5334 caratteri di input convertiti per query * 10 QPS = 53340 caratteri di input convertiti totali al secondo
Calcola le unità di servizio Google.
Le GSU sono il throughput totale al secondo diviso per il throughput per GSU della tabella di burndown.
53.340 caratteri di input convertiti totali al secondo ÷ 54.000 throughput per GSU = 0,988 GSU
L'incremento minimo di acquisto di GSU per
gemini-1.5-flash
è 1, che soddisfa il tuo requisito.