Esta página explica a cota compartilhada dinâmica (DSQ, na sigla em inglês) e como ela é diferente do throughput provisionado. Um exemplo também é apresentado para explicar como o DSQ funciona.
A DSQ distribui a capacidade sob demanda disponível entre todas as consultas processadas pelos serviços do Google Cloud para modelos específicos. Esse recurso elimina a necessidade de definir limites de cota e de enviar solicitações de aumento de cota (QIRs, na sigla em inglês).
O DSQ processa solicitações feitas por projetos em um grupo de regiões. As cotas são removidas, e a capacidade disponível é distribuída para cada projeto. A DSQ ajuda a garantir que o serviço contínuo seja fornecido para projetos pequenos e grandes.
Com o sistema de cotas do Cloud atual, a realoação acontece a cada minuto, o que significa que você pode esgotar sua cota para esse minuto nos primeiros 10 segundos e, em seguida, seu projeto não poderá fazer nada pelos 50 segundos restantes até que a cota seja ativada novamente. Com a DSQ, sua distribuição de capacidade é reavaliada a cada segundo. Se houver capacidade disponível, seu projeto poderá receber mais tráfego (consultas) processado. Ao usar o sistema de cotas do Cloud, se o tráfego exceder a cota definida, o excesso será limitado (rejeitado).
A capacidade de processamento provisionada é a única maneira de garantir alta disponibilidade para seu aplicativo e ter níveis de serviço previsíveis para suas cargas de trabalho de produção. Para mais informações sobre a capacidade provisionada, consulte Capacidade provisionada.
Modelos compatíveis
Esta seção lista os modelos que oferecem suporte à cota compartilhada dinâmica (DSQ, na sigla em inglês), que é ativada por padrão nesses modelos.
O DSQ é processado como pagamento por uso. Se você exceder a capacidade alocada, um erro 429 será gerado. Para mais informações sobre como resolver o erro, consulte Código de erro 429.
Modelos do Google
A tabela a seguir lista os modelos (e versões) do Google compatíveis com a DSQ:
Modelo | Data de lançamento do DSQ | Status |
---|---|---|
Gemini 1.5 Flash (gemini-1.5-flash-002 ) |
24 de setembro de 2024 | Ao vivo |
Gemini 1.5 Pro (gemini-1.5-pro-002 ) |
24 de setembro de 2024 | Ao vivo |
Modelos de parceiros
A tabela a seguir lista os modelos Claude compatíveis com a DSQ. Para mais informações sobre os modelos Claude, consulte Usar os modelos Claude da Anthropic.
Como a cota compartilhada dinâmica funciona
Esta seção explica os termos fundamentais que são essenciais para entender como a cota compartilhada dinâmica (DSQ, na sigla em inglês) funciona, seguida de uma analogia e exemplos.
Limite, cota e capacidade
Limite, cota e capacidade são diferentes. Por exemplo, a cota não é a mesma que a capacidade.
Um limite é uma quantidade máxima definida para restringir o número de solicitações que um projeto pode fazer em um modelo. Esse valor não pode ser alterado. O Google protege os sistemas usando limites.
Uma cota é um limite imposto pelo Google para restringir o número de solicitações que os projetos fazem em modelos específicos, mas ela pode ser alterada. Embora uma cota especifique o número de solicitações que podem ser feitas para um modelo, ela não garante que a capacidade seja alocada para esse projeto. As cotas foram criadas com o objetivo de proteger o sistema contra sobrecarga e uso indevido dos serviços do Google Cloud.
A capacidade é o número de recursos disponíveis para o projeto processar as solicitações. A capacidade é limitada pela cota, mas ela não garante que a capacidade esteja disponível.
A alocação de capacidade para DSQ é no nível do projeto.
Como a cota e a capacidade funcionam no DSQ
A analogia do rio e da xícara explica claramente como a cota e a capacidade funcionam no DSQ.
Imagine que sua comunidade vive perto de um rio e que cada pessoa recebe um copo de 350 ml para pegar água dele. O rio está cheio de água, mas o copo de cada pessoa comporta apenas 350 ml de água.
Enquanto o rio tiver água suficiente, cada pessoa pode reabastecer o copo de acordo com as necessidades até o limite de 350 ml. No entanto, se o rio começar a secar, cada pessoa vai receber uma quantidade menor, por exemplo, 60 ou 120 mililitros de água.
A quantidade que o rio comporta é a capacidade. A quantidade que o copo pode aguentar é a cota.
Cada pessoa só vê o que está no próprio copo, e não o rio. É possível conferir sua cota (também chamada de limites de consulta) usando a página Cotas e limites do sistema no console do Google Cloud.
Com a DSQ, você tem um copo mágico que armazena água (capacidade) ilimitada, porque as cotas não existem mais. A DSQ não depende da capacidade do seu copo, mas se concentra na distribuição da água do rio, dependendo do número de copos e da capacidade necessária de cada copo que precisa compartilhar essa capacidade.
Exemplo de como a DSQ funciona
Neste exemplo, a tabela mostra quatro projetos com uma capacidade total de 100 QPS. As colunas da tabela incluem:
Demanda atual: é a quantidade que cada projeto quer usar. A demanda atual é maior do que a capacidade total. Neste exemplo, 317 QPS (demanda atual) em vez de 100 QPS (capacidade total para todos os projetos).
Alocação proporcional à cota atual: é o resultado da divisão da capacidade pela contagem de solicitações. O projeto A recebe a maior cota porque foi o que mais fez solicitações, o que faz com que outros projetos não recebam cota suficiente.
Alocação de DSQ: a capacidade alocada nos projetos.
Projeto A | Projeto B | Projeto C | Projeto D | |
---|---|---|---|---|
Demanda atual | 250 | 32 | 25 | 10 |
Alocação proporcional atual | 79 | 10 | 8 | 3 |
Alocação de DSQ | 33 | 32 | 25 | 10 |
Estas etapas mostram como calcular a alocação de DSQ:
Cada projeto recebe uma cota. Nesse caso, 25 QPS.
O projeto D usa apenas 10 QPS dos 25 QPS. Portanto, a capacidade adicional de 15 QPS é redistribuída.
O projeto C recebe cota suficiente para continuar recebendo 25 QPS.
Os projetos A e B ainda precisam de mais cota. Portanto, a cota extra do projeto D (15 QPS) é dividida e distribuída igualmente para os projetos A e B (7,5 QPS cada).
O projeto B recebe 7,5 QPS do projeto D para atingir 32,5 QPS, e o projeto A está restrito a uma quantidade de 32,5 QPS. O projeto A recebe um erro
429
para as solicitações que excedem a capacidade alocada.
Exemplo de capacidade em uma região específica
O Google Cloud analisa a capacidade disponível em uma região específica, como a América do Norte, e verifica quantos projetos estão enviando solicitações.
Considere o projeto A, que envia 25 consultas por minuto (QPM), e o projeto B, que envia 25 QPM. O serviço pode oferecer suporte a 100 QPM. Se o projeto A aumentar a taxa de consultas para 75 QPS, a DSQ vai suportar o aumento. Se o projeto A aumentar a taxa de consultas para 100 QPM, a DSQ vai diminuir o projeto A para 75 QPM para continuar a oferecer o projeto B a 25 QPM.
Considerações
Antes de decidir comprar um modelo compatível com a DSQ, leia as considerações a seguir:
Consideração | Solução |
---|---|
Controle os custos e evite estouros de orçamento. | Configure uma cota autoimposta chamada de substituição de cota do consumidor. Para mais informações, consulte Como criar uma modificação de cota do consumidor. |
Priorize o tráfego. | Use a capacidade de processamento provisionada. |
Monitore o uso. | Confira as seguintes métricas:
aiplatform na documentação do Cloud Monitoring. |
Monitorar o uso de QPS
Para monitorar o uso de QPS do Gemini, consulte a página Cotas e limites do sistema.
Resolver erros de DSQ
Quando a capacidade compartilhada por região for esgotada, sua consulta poderá receber um erro 429. Para resolver erros que possam ocorrer, consulte Código de erro 429.
A seguir
- Para saber mais sobre os modelos do Gemini que oferecem suporte à DSQ, consulte Modelos do Gemini.
- Para saber mais sobre cotas e limites da IA generativa, consulte Limites de taxa da IA generativa na Vertex AI.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do Google Cloud, consulte Noções básicas sobre valores de cota e limites do sistema.