Cota compartilhada dinâmica

A cota compartilhada dinâmica distribui a capacidade sob demanda entre todas as consultas que estão sendo processadas pelos serviços do Google Cloud. Esse recurso elimina a necessidade de enviar solicitações de aumento de cota (QIRs, na sigla em inglês).

Versões de modelo do Google com suporte

Estes são os modelos do Google e as versões deles que oferecem suporte à cota compartilhada dinâmica:

  • Gemini 1.5 Flash (gemini-1.5-flash-002)
  • Gemini 1.5 Pro (gemini-1.5-pro-002)

Outros modelos com suporte

Para informações sobre os modelos Claude que oferecem suporte à cota compartilhada dinâmica, consulte Usar os modelos Claude da Anthropic.

Exemplo de como a cota compartilhada dinâmica funciona

O Google Cloud analisa a capacidade disponível em uma região específica, como a América do Norte, e verifica quantos clientes estão enviando solicitações. Considere o cliente A, que envia 25 consultas por minuto (QPM), e o cliente B, que envia 25 QPM. O serviço pode oferecer suporte a 100 QPM. Se o cliente A aumentar a taxa de consultas para 75 QPM, a cota compartilhada dinâmica vai suportar o aumento. Se o cliente A aumentar a taxa de consultas para 100 QPM, a cota compartilhada dinâmica vai limitar o cliente A a 75 QPM para continuar a oferecer ao cliente B 25 QPM.

Para resolver erros que podem ocorrer com o uso da cota compartilhada dinâmica, consulte Resolver erros de cota.

Considerações

Consideração Solução
Controle os custos e evite estouros de orçamento. Configure uma cota autoimposta chamada de substituição de cota do consumidor. Para mais informações, consulte Como criar uma modificação de cota do consumidor.
Priorize o tráfego. Use a capacidade de processamento provisionada.
Monitore o uso. Acesse Cotas e limites do sistema no console do Google Cloud.

A seguir