La quota dinamica condivisa distribuisce la capacità on demand tra tutte le query elaborati dai servizi Google Cloud. Questa funzionalità elimina la necessità di inviare richieste di aumento della quota (QIR).
Versioni dei modelli Google supportate
I modelli Google e le relative versioni che supportano la quota dinamica condivisa sono seguenti:
- Gemini 1.5 Flash (
gemini-1.5-flash-002
) - Gemini 1.5 Pro (
gemini-1.5-pro-002
)
Altri modelli supportati
Per informazioni sui modelli Claude che supportano la quota dinamica condivisa, vedi Utilizza i modelli di Claude di Anthropic.
Esempio di come funziona la quota condivisa dinamica
Google Cloud esamina la capacità disponibile in una regione specifica, ad esempio il Nord America, e poi il numero di clienti che inviano richieste. Consideriamo il cliente A, che invia 25 query al minuto, e il cliente B, che invia 25 QPM. Il servizio può supportare 100 QPM. Se il cliente A aumenta la tariffa delle query a 75 QPM, la quota condivisa dinamica supporta l'aumento. Se il cliente A aumenta la frequenza delle query a 100 QPM, quindi la condivisione dinamica la quota limita il cliente A a 75 QPM per continuare a B alle 25 QPM.
Per risolvere gli errori che potrebbero verificarsi durante l'utilizzo di quota condivisa dinamica, consulta Risolvere gli errori di quota.
Considerazioni
Considerazione | Soluzione: |
---|---|
Controlla i costi ed evita gli sforamenti di budget. | Configura una quota autoimposta detta override della quota consumer. Per Per ulteriori informazioni, consulta Creazione di un override della quota consumer. |
Dare la priorità al traffico. | Utilizza la velocità effettiva di cui è stato eseguito il provisioning. |
Monitora l'utilizzo. | Visualizza Quote e limiti di sistema nella console Google Cloud. |
Passaggi successivi
- Per scoprire di più sui modelli Gemini che supportano la quota condivisa dinamica, consulta Modelli Gemini.
- Per scoprire di più sulle quote e sui limiti di Generative AI, consulta Limiti di frequenza dell'IA generativa su Vertex AI.
- Per scoprire di più su quote e limiti per Vertex AI, consulta Quote e limiti di Vertex AI.
- Per saperne di più sulle quote e sui limiti di Google Cloud, consulta Informazioni sui valori delle quote e sui limiti di sistema.