Misurare la velocità effettiva di cui è stato eseguito il provisioning

Questa sezione illustra i concetti di unità di scala dell'AI generativa (GSU) e di tassi di burndown. Il Throughput riservato viene calcolato e valutato utilizzando le unità di scala di AI generativa (GSU) e le percentuali di burndown.

GSU e tasso di burndown

Un'unità della scala di AI generativa (GSU) è una misura della produttività per i prompt e le risposte. Questo valore specifica la quantità di throughput per il provisioning di un modello.

Un tasso di burndown è un rapporto che converte i caratteri di input e output in caratteri di input al secondo (throughput). Questo rapporto viene utilizzato per produrre un'unità standard per tutti i modelli.

Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'ammontare minimo dell'acquisto di GSU e sugli incrementi per ciascun modello, consulta la sezione Modelli supportati e tassi di burndown in questo documento.

Questa equazione mostra come viene calcolato il throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità in MB/s calcolata determina il numero di GSU necessarie per il tuo caso d'uso.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le tue esigenze di throughput provisionato, utilizza lo strumento di stima nella console Google Cloud. L'esempio seguente illustra la procedura per stimare la quantità di throughput Provisioning per il modello. La regione non viene considerata nei calcoli di stima.

Questa tabella fornisce le percentuali di burndown per gemini-1.5-flash che puoi utilizzare per seguire l'esempio.

Modello Throughput per GSU (caratteri/sec) Incremento minimo di acquisto di GSU Tassi di burndown
Gemini 1.5 Flash Finestra contestuale inferiore o uguale a 128.000 token:
54.000

Finestra contestuale superiore a 128.000 token:
27.000
1 Finestra contestuale di massimo 128.000 token:
1 carattere di input = 1 carattere
1 carattere di output = 4 caratteri
1 immagine = 1067 caratteri
1 video al secondo = 1067 caratteri
1 audio al secondo = 107 caratteri
Finestra contestuale di più di 128.000 token:
1 carattere di input = 2 caratteri
1 carattere di output = 8 caratteri
1 immagine = 2134 caratteri
1 video al secondo = 2134 caratteri
1 audio al secondo = 214 caratteri
  1. Raccogliere i requisiti.

    1. In questo esempio, il tuo requisito è assicurarti di poter inviare 2000 caratteri con 2 immagini e ricevere 300 caratteri di output per 10 query al secondo utilizzando gemini-1.5-flash.

      Questo passaggio significa che hai compreso il tuo caso d'uso, perché hai identificato le dimensioni degli input e degli output, il numero di query al secondo (QPS) e il tuo modello.

    2. Per stimare la produttività, specifica il modello. In questo esempio, il modello è gemini-1.5-flash.

    3. Specifica il tipo di input e identifica il tasso di burndown. Utilizza la tabella delle percentuali di burndown per identificare la percentuale di burndown in base al tipo di input.

      Il tasso di burndown di un'immagine per il modello gemini-1.5-flash è di 1.067 caratteri.

  2. Calcola il throughput.

    1. Moltiplica il numero di immagini per il tasso di burndown per il tipo di input per il tuo modello specifico.

      2 immagini * 1067 caratteri di input per immagine = 2134 caratteri di input

    2. Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di riduzione e individua il tasso di riduzione per i caratteri di output (quattro caratteri per carattere di output) per il tuo modello specifico (gemini-1.5-flash).

      300 caratteri di output * 4 caratteri per carattere di output = 1200 caratteri di input convertiti

    3. Somma i totali.

      2000 caratteri di input + 2134 caratteri di input convertiti per le immagini + 1200 caratteri di input convertiti per l'output = 5334 caratteri di input convertiti per query

    4. Moltiplica i caratteri per query per il numero di query al secondo previste per ottenere il throughput totale al secondo.

      5334 caratteri di input convertiti per query * 10 QPS = 53340 caratteri di input convertiti totali al secondo

  3. Calcola le unità di servizio Google.

    1. Le GSU sono il throughput totale al secondo diviso per il throughput per GSU della tabella di burndown.

      53.340 caratteri di input convertiti totali al secondo ÷ 54.000 throughput per GSU = 0,988 GSU

    2. L'incremento minimo di acquisto di GSU per gemini-1.5-flash è 1, che soddisfa il tuo requisito.

Passaggi successivi