Esta página explica a cota compartilhada dinâmica (DSQ, na sigla em inglês) e como ela é diferente do throughput provisionado.
Introdução à cota compartilhada dinâmica
A cota compartilhada dinâmica (DSQ, na sigla em inglês) distribui a capacidade sob demanda disponível entre todas as consultas processadas pelos serviços Google Cloud para modelos específicos. Esse recurso elimina a necessidade de definir limites de cota e enviar solicitações de aumento de cota (QIRs, na sigla em inglês).
O DSQ processa solicitações de todos os clientes para os mesmos endpoints regionais ou multirregionais. As cotas são removidas, e a capacidade disponível é distribuída para cada projeto.
A capacidade provisionada é a única maneira de garantir alta disponibilidade para seu aplicativo e ter níveis de serviço previsíveis para suas cargas de trabalho de produção. Para mais informações sobre a capacidade provisionada, consulte Capacidade provisionada.
Modelos compatíveis
Esta seção lista os modelos que oferecem suporte à cota compartilhada dinâmica (DSQ, na sigla em inglês), que é ativada por padrão nesses modelos.
Modelos do Google
A tabela a seguir lista os modelos (e versões) do Google compatíveis com a DSQ:
Modelo | Data de lançamento do DSQ | Status |
---|---|---|
Gemini 1.5 Flash (gemini-1.5-flash-002 ) |
24 de setembro de 2024 | Ao vivo |
Gemini 1.5 Pro (gemini-1.5-pro-002 ) |
24 de setembro de 2024 | Ao vivo |
As cotas de DSQ não estão listadas na página Cotas e limites do sistema do console do Google Cloud.
Resolver erros de DSQ
Quando não há capacidade suficiente para atender à consulta, você pode receber um erro 429. Para resolver erros que possam ocorrer, consulte Código de erro 429.
A seguir
- Para saber mais sobre os modelos do Gemini que oferecem suporte à DSQ, consulte Modelos do Gemini.
- Para saber mais sobre cotas e limites da IA generativa, consulte Limites de taxa da IA generativa na Vertex AI.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre Google Cloud cotas e limites, consulte Noções básicas sobre valores de cota e limites do sistema.