A cota compartilhada dinâmica distribui a capacidade sob demanda entre todas as consultas que estão sendo processadas pelos serviços do Google Cloud. Esse recurso elimina a necessidade de enviar solicitações de aumento de cota (QIRs, na sigla em inglês).
Versões de modelo do Google com suporte
Estes são os modelos do Google e as versões deles que oferecem suporte à cota compartilhada dinâmica:
- Gemini 1.5 Flash (
gemini-1.5-flash-002
) - Gemini 1.5 Pro (
gemini-1.5-pro-002
)
Outros modelos com suporte
Para informações sobre os modelos Claude que oferecem suporte à cota compartilhada dinâmica, consulte Usar os modelos Claude da Anthropic.
Exemplo de como a cota compartilhada dinâmica funciona
O Google Cloud analisa a capacidade disponível em uma região específica, como a América do Norte, e verifica quantos clientes estão enviando solicitações. Considere o cliente A, que envia 25 consultas por minuto (QPM), e o cliente B, que envia 25 QPM. O serviço pode oferecer suporte a 100 QPM. Se o cliente A aumentar a taxa de consultas para 75 QPM, a cota compartilhada dinâmica vai suportar o aumento. Se o cliente A aumentar a taxa de consultas para 100 QPM, a cota compartilhada dinâmica vai limitar o cliente A a 75 QPM para continuar a oferecer ao cliente B 25 QPM.
Para resolver erros que podem ocorrer com o uso da cota compartilhada dinâmica, consulte Resolver erros de cota.
Considerações
Consideração | Solução |
---|---|
Controle os custos e evite estouros de orçamento. | Configure uma cota autoimposta chamada de substituição de cota do consumidor. Para mais informações, consulte Como criar uma modificação de cota do consumidor. |
Priorize o tráfego. | Use a capacidade de processamento provisionada. |
Monitore o uso. | Acesse Cotas e limites do sistema no console do Google Cloud. |
A seguir
- Para saber mais sobre os modelos do Gemini que oferecem suporte à cota compartilhada dinâmica, consulte Modelos do Gemini.
- Para saber mais sobre cotas e limites da IA generativa, consulte Limites de taxa da IA generativa na Vertex AI.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do Google Cloud, consulte Noções básicas sobre valores de cota e limites do sistema.