Throughput riservato per l'API Live

Questa sezione spiega come funziona il throughput di cui è stato eseguito il provisioning con l'API Live per il conteggio dei token e l'applicazione delle quote.

L'API Live supporta interazioni multimodali a bassa latenza tramite sessioni. Utilizza una memoria di sessione per conservare e recuperare le informazioni dalle interazioni all'interno di una sessione. In questo modo, il modello può ricordare le informazioni fornite o discusse in precedenza. Provisioned Throughput supporta il modello Gemini 2.5 Flash con API Live. Per ulteriori informazioni sull'API Live, inclusi limiti di sessione e funzionalità, consulta il riferimento API Live.

Calcolare il throughput per l'API Live

Quando utilizzi l'API Live, i token memorizzati nella memoria della sessione possono essere utilizzati nelle richieste successive al modello. Di conseguenza, il throughput di cui è stato eseguito il provisioning tiene conto dei token in entrata e dei token di memoria di sessione nella stessa richiesta. Ciò potrebbe comportare un numero di token elaborati per richiesta superiore a quello dei token inviati dall'utente nella richiesta in corso.

L'API Live ha un limite al numero totale di token che possono essere memorizzati nella memoria della sessione e ha anche un campo di metadati contenente il numero totale di token. Quando calcoli la quantità di throughput necessaria per gestire le richieste, devi tenere conto dei token nella memoria della sessione. Se hai utilizzato l'API Live con il pagamento a consumo, puoi utilizzare questi pattern di traffico e token di sessione per stimare le tue esigenze di throughput di cui è stato eseguito il provisioning.

Esempio di come stimare i requisiti di throughput con provisioning per l'API Live

Durante una sessione, tutto il traffico viene elaborato come throughput di cui è stato eseguito il provisioning o con pagamento a consumo. Se raggiungi la quota di throughput di cui è stato eseguito il provisioning durante una sessione, riceverai un messaggio di errore che ti chiede di riprovare in un secondo momento. Una volta rientrato nella quota, puoi riprendere a inviare richieste. Lo stato della sessione, inclusa la memoria della sessione, sono disponibili finché la sessione è attiva.

Questo esempio illustra come vengono elaborate due richieste consecutive includendo i token della memoria della sessione.

Dettagli della richiesta n. 1

Durata: 10 secondi

Token inviati (audio): 10 secondi x 25 token/secondo = 250 token

Token inviati (video): 10 secondi x 258 token/frame al secondo = 2580 token

Token totali elaborati per la richiesta n. 1:

  • Token inviati: somma dei token audio e video inviati = 2580 + 250 = 2830 token
  • Token ricevuti: 100 (audio)

Dettagli della richiesta n. 2

Durata: 40 secondi

Token inviati (audio): 40 secondi x 25 token/secondo = 1000 token

Token totali elaborati per la richiesta n. 2:

  • Token inviati: token inviati nella richiesta n. 2 + token di memoria di sessione della richiesta n. 1 = 2830 token + 1000 token = 3830 token
  • Token ricevuti: 200 (audio)

Calcolare il numero di token elaborati nelle richieste

Il numero di token elaborati durante queste richieste viene calcolato come segue:

  • La richiesta n. 1 elabora solo i token di input e output della richiesta in corso, poiché non sono presenti token aggiuntivi nella memoria della sessione.

  • La richiesta n. 2 elabora i token di input e output della richiesta in corso, ma include anche i token di input della memoria della sessione, costituiti dai token di input della richiesta precedente (richiesta n. 1) dalla memoria della sessione. Il tasso di esaurimento dei token nella memoria della sessione è lo stesso dei token di input standard (1 token di memoria della sessione di input = 1 token di input).

    Se l'elaborazione della richiesta n. 2 ha richiesto esattamente 1 secondo dopo l'invio, i token vengono elaborati e applicati alla quota di throughput di cui è stato eseguito il provisioning nel seguente modo:

    • Moltiplica gli input per i tassi di consumo per ottenere i token di input totali:

      2830 x (1 token per token di memoria di sessione) + 1000 x (1 token per token di testo di input) = 3830 token di input con riduzione per query

    • Moltiplica gli output per i tassi di esaurimento per ottenere i token di output totali:

      200 x (6 token per token di output audio) = 1200 token

    • Somma questi due totali per ottenere il numero totale di token elaborati:

      3830 token + 1200 token = 5030 token

Se la tua quota di velocità effettiva sottoposta a provisioning è superiore a 5030 token al secondo, questa richiesta può essere elaborata immediatamente. Se è inferiore, i token vengono elaborati nel tempo alla velocità impostata per la quota.

Passaggi successivi