Quota condivisa dinamica

Questa pagina spiega la quota condivisa dinamica (DSQ) e in che modo è diversa dal throughput pianificato. Viene anche presentato un esempio per spiegare come funziona il DSQ.

DSQ distribuisce la capacità on demand disponibile tra tutte le query in fase di elaborazione da parte dei servizi Google Cloud per modelli specifici. Questa funzionalità elimina la necessità di impostare limiti di quota ed elimina la necessità di inviare richieste di aumento della quota.

DSQ elabora le richieste effettuate dai progetti in un gruppo di regioni. Le quote vengono eliminate e la capacità disponibile viene distribuita a ogni progetto. DSQ contribuisce a garantire un servizio continuo sia per i progetti di piccole che di grandi dimensioni.

Con il sistema Quota di Cloud esistente, la riallocazione avviene ogni minuto, il che significa che potresti esaurire la quota per quel minuto nei primi 10 secondi e il tuo progetto non potrà fare nulla per i 50 secondi rimanenti finché la quota non verrà riattivata. Con DSQ, la distribuzione della capacità viene rivalutata ogni secondo. Se è disponibile la capacità, il tuo progetto potrebbe ricevere un maggiore volume di traffico (query). Se utilizzi il sistema delle quote Cloud e il tuo traffico supera la quota impostata, l'importo in eccesso viene limitato (rifiutato).

Il throughput pianificato è l'unico modo per garantire un'alta disponibilità per la tua applicazione e ottenere livelli di servizio prevedibili per i tuoi carichi di lavoro di produzione. Per ulteriori informazioni sul throughput riservato, consulta Throughput riservato.

Modelli supportati

Questa sezione elenca i modelli che supportano la quota condivisa dinamica (DSQ), che è attivata per impostazione predefinita in questi modelli.

La DSQ viene elaborata come pagamento a consumo. Se superi la capacità allocata, viene generato un errore 429. Per ulteriori informazioni sulla risoluzione dell'errore, consulta Codice di errore 429.

Modelli Google

La tabella seguente elenca i modelli (e le versioni) Google che supportano i DSQ:

Modello Data di rilascio del DQ Stato
Gemini 1.5 Flash (gemini-1.5-flash-002) 24 settembre 2024 In diretta
Gemini 1.5 Pro (gemini-1.5-pro-002) 24 settembre 2024 In diretta

Modelli di partner

La tabella seguente elenca i modelli Claude che supportano DSQ. Per ulteriori informazioni sui modelli Claude, consulta Utilizzare i modelli Claude di Anthropic.

Come funziona la quota condivisa dinamica

Questa sezione illustra i termini fondamentali per comprendere come funziona la quota condivisa dinamica (DSQ), seguita da un'analogia ed esempi.

Limite, quota e capacità

Limite, quota e capacità sono diversi. Ad esempio, la quota non è uguale alla capacità.

Un limite è un valore massimo impostato per limitare il numero di richieste che un progetto può effettuare su un modello. Questo valore non può essere modificato. Google protegge i propri sistemi utilizzando dei limiti.

Una quota è un limite imposto anche da Google per limitare il numero di richieste che i progetti inviano a modelli specifici, ma la quota può essere modificata. Sebbene una quota specifichi il numero di richieste che possono essere inviate a un modello, le quote non garantiscono che la capacità venga allocata al progetto. Le quote sono state create con l'obiettivo di proteggere il sistema da sovraccarichi e uso improprio dei servizi Google Cloud.

La capacità indica quante risorse sono disponibili per il progetto per elaborare le tue richieste. La capacità è limitata dalla quota, ma la quota non garantisce che la capacità sia disponibile.

L'allocazione della capacità per DSQ avviene a livello di progetto.

Come funzionano quota e capacità in DSQ

L'analogia del fiume e della tazza spiega chiaramente come funzionano la quota e la capacità nel DSQ.

Immagina che la tua comunità viva in riva a un fiume e che a ogni persona venga dato un bicchiere da 350 ml per prendere l'acqua dal fiume. Il fiume è pieno di acqua, ma il bicchiere di ogni persona può contenere solo 350 ml di acqua.

Finché il fiume ha acqua a sufficienza, ogni persona può riempire il proprio bicchiere in base alle sue esigenze fino al limite di 350 ml. Tuttavia, se il fiume inizia a seccarsi, ogni persona deve ricevere una quantità inferiore, ad esempio 60 o 120 ml di acqua.

La quantità contenuta nel fiume è la capacità. La quantità che può contenere la coppa è la quota.

Ogni persona vede solo ciò che è nella sua tazza e non il fiume. Puoi visualizzare la quota (indicata anche come limiti di query) utilizzando la pagina Quote e limiti di sistema nella console Google Cloud.

Con il DSQ, hai una tazza magica che contiene acqua illimitata (capacità), perché le quote non esistono più. Il DSQ non dipende dalla capienza della coppa, ma si concentra sulla distribuzione dell'acqua del fiume a seconda del numero di tazze e della capacità necessaria di ogni tazza che deve condividere questa capacità.

Esempio di come funziona DSQ

In questo esempio, la tabella mostra quattro progetti con una capacità totale di 100 QPS. Le colonne della tabella includono:

  • Domanda attuale: indica la quantità che ogni progetto vuole utilizzare. La domanda attuale è superiore alla capacità totale. In questo esempio, 317 QPS (attuale richiesta) rispetto a 100 QPS (capacità totale per tutti i progetti).

  • Allocazione proporzionale della quota attuale: si tratta del risultato della divisione della capacità per il numero di richieste. Il progetto A riceve la quota maggiore perché è quello che ne ha richiesta di più, con il risultato che gli altri progetti non ricevono quota sufficiente.

  • Allocazione DSQ: la capacità allocata ai progetti.

Progetto A Progetto B Progetto C Progetto D
Domanda attuale 250 32 25 10
Allocazione proporzionale attuale 79 10 8 3
Allocazione DQ 33 32 25 10

Questi passaggi mostrano come calcolare l'allocazione DSQ:

  1. Ogni progetto riceve la propria quota. In questo caso, 25 QPS.

  2. Il progetto D utilizza solo 10 QPS dei 25 a sua disposizione. Pertanto, la capacità aggiuntiva di 15 QPS viene ridistribuita.

  3. Il progetto C riceve una quota sufficiente per continuare a ricevere 25 QPS.

  4. I progetti A e B hanno ancora bisogno di più quota. Pertanto, la quota aggiuntiva del progetto D (15 QPS) viene divisa e distribuita equamente ai progetti A e B (7,5 QPS ciascuno).

  5. Il progetto B riceve 7,5 QPS dal progetto D per raggiungere i 32,5 QPS e il progetto A è limitato a un valore di 32,5 QPS. Il progetto A riceve un errore 429 per le richieste che superano la capacità allocata.

Esempio di capacità in una regione specifica

Google Cloud esamina la capacità disponibile in una regione specifica, ad esempio il Nord America, e poi il numero di progetti che inviano richieste.

Prendiamo in considerazione il progetto A, che invia 25 query al minuto (QPM), e il progetto B, che invia 25 QPM. Il servizio può supportare 100 QPM. Se il progetto A aumenta la frequenza delle query a 75 QPM, DSQ supporta l'aumento. Se il progetto A aumenta la frequenza delle query a 100 QPM, la DSQ riduce il progetto A a 75 QPM per continuare a servire il progetto B a 25 QPM.

Considerazioni

Prima di decidere di acquistare un modello che supporta i DSQ, esamina le seguenti considerazioni:

Considerazione Soluzione:
Dare la priorità al traffico. Utilizza la velocità effettiva di cui è stato eseguito il provisioning.
Monitora il tuo utilizzo. Visualizza le seguenti metriche:
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
Per ulteriori informazioni, consulta la sezione aiplatform nella documentazione di Cloud Monitoring.

Monitorare l'utilizzo di QPS

Per monitorare l'utilizzo di QPS di Gemini, consulta la pagina Quote e limiti di sistema.

Risolvere gli errori DSQ

Quando la capacità condivisa per regione è esaurita, la query potrebbe ricevere un errore 429. Per risolvere gli errori che potrebbero verificarsi, consulta Codice di errore 429.

Passaggi successivi