Cota compartilhada dinâmica

Esta página explica a cota compartilhada dinâmica (DSQ, na sigla em inglês) e como ela é diferente do throughput provisionado. Um exemplo também é apresentado para explicar como o DSQ funciona.

A DSQ distribui a capacidade sob demanda disponível entre todas as consultas processadas pelos serviços do Google Cloud para modelos específicos. Esse recurso elimina a necessidade de definir limites de cota e de enviar solicitações de aumento de cota (QIRs, na sigla em inglês).

O DSQ processa solicitações feitas por projetos em um grupo de regiões. As cotas são removidas, e a capacidade disponível é distribuída para cada projeto. A DSQ ajuda a garantir que o serviço contínuo seja fornecido para projetos pequenos e grandes.

Com o sistema de cotas do Cloud atual, a realoação acontece a cada minuto, o que significa que você pode esgotar sua cota para esse minuto nos primeiros 10 segundos e, em seguida, seu projeto não poderá fazer nada pelos 50 segundos restantes até que a cota seja ativada novamente. Com a DSQ, sua distribuição de capacidade é reavaliada a cada segundo. Se houver capacidade disponível, seu projeto poderá receber mais tráfego (consultas) processado. Ao usar o sistema de cotas do Cloud, se o tráfego exceder a cota definida, o excesso será limitado (rejeitado).

A capacidade de processamento provisionada é a única maneira de garantir alta disponibilidade para seu aplicativo e ter níveis de serviço previsíveis para suas cargas de trabalho de produção. Para mais informações sobre a capacidade provisionada, consulte Capacidade provisionada.

Modelos compatíveis

Esta seção lista os modelos que oferecem suporte à cota compartilhada dinâmica (DSQ, na sigla em inglês), que é ativada por padrão nesses modelos.

O DSQ é processado como pagamento por uso. Se você exceder a capacidade alocada, um erro 429 será gerado. Para mais informações sobre como resolver o erro, consulte Código de erro 429.

Modelos do Google

A tabela a seguir lista os modelos (e versões) do Google compatíveis com a DSQ:

Modelo Data de lançamento do DSQ Status
Gemini 1.5 Flash (gemini-1.5-flash-002) 24 de setembro de 2024 Ao vivo
Gemini 1.5 Pro (gemini-1.5-pro-002) 24 de setembro de 2024 Ao vivo

Modelos de parceiros

A tabela a seguir lista os modelos Claude compatíveis com a DSQ. Para mais informações sobre os modelos Claude, consulte Usar os modelos Claude da Anthropic.

Como a cota compartilhada dinâmica funciona

Esta seção explica os termos fundamentais que são essenciais para entender como a cota compartilhada dinâmica (DSQ, na sigla em inglês) funciona, seguida de uma analogia e exemplos.

Limite, cota e capacidade

Limite, cota e capacidade são diferentes. Por exemplo, a cota não é a mesma que a capacidade.

Um limite é uma quantidade máxima definida para restringir o número de solicitações que um projeto pode fazer em um modelo. Esse valor não pode ser alterado. O Google protege os sistemas usando limites.

Uma cota é um limite imposto pelo Google para restringir o número de solicitações que os projetos fazem em modelos específicos, mas ela pode ser alterada. Embora uma cota especifique o número de solicitações que podem ser feitas para um modelo, ela não garante que a capacidade seja alocada para esse projeto. As cotas foram criadas com o objetivo de proteger o sistema contra sobrecarga e uso indevido dos serviços do Google Cloud.

A capacidade é o número de recursos disponíveis para o projeto processar as solicitações. A capacidade é limitada pela cota, mas ela não garante que a capacidade esteja disponível.

A alocação de capacidade para DSQ é no nível do projeto.

Como a cota e a capacidade funcionam no DSQ

A analogia do rio e da xícara explica claramente como a cota e a capacidade funcionam no DSQ.

Imagine que sua comunidade vive perto de um rio e que cada pessoa recebe um copo de 350 ml para pegar água dele. O rio está cheio de água, mas o copo de cada pessoa comporta apenas 350 ml de água.

Enquanto o rio tiver água suficiente, cada pessoa pode reabastecer o copo de acordo com as necessidades até o limite de 350 ml. No entanto, se o rio começar a secar, cada pessoa vai receber uma quantidade menor, por exemplo, 60 ou 120 mililitros de água.

A quantidade que o rio comporta é a capacidade. A quantidade que o copo pode aguentar é a cota.

Cada pessoa só vê o que está no próprio copo, e não o rio. É possível conferir sua cota (também chamada de limites de consulta) usando a página Cotas e limites do sistema no console do Google Cloud.

Com a DSQ, você tem um copo mágico que armazena água (capacidade) ilimitada, porque as cotas não existem mais. A DSQ não depende da capacidade do seu copo, mas se concentra na distribuição da água do rio, dependendo do número de copos e da capacidade necessária de cada copo que precisa compartilhar essa capacidade.

Exemplo de como a DSQ funciona

Neste exemplo, a tabela mostra quatro projetos com uma capacidade total de 100 QPS. As colunas da tabela incluem:

  • Demanda atual: é a quantidade que cada projeto quer usar. A demanda atual é maior do que a capacidade total. Neste exemplo, 317 QPS (demanda atual) em vez de 100 QPS (capacidade total para todos os projetos).

  • Alocação proporcional à cota atual: é o resultado da divisão da capacidade pela contagem de solicitações. O projeto A recebe a maior cota porque foi o que mais fez solicitações, o que faz com que outros projetos não recebam cota suficiente.

  • Alocação de DSQ: a capacidade alocada nos projetos.

Projeto A Projeto B Projeto C Projeto D
Demanda atual 250 32 25 10
Alocação proporcional atual 79 10 8 3
Alocação de DSQ 33 32 25 10

Estas etapas mostram como calcular a alocação de DSQ:

  1. Cada projeto recebe uma cota. Nesse caso, 25 QPS.

  2. O projeto D usa apenas 10 QPS dos 25 QPS. Portanto, a capacidade adicional de 15 QPS é redistribuída.

  3. O projeto C recebe cota suficiente para continuar recebendo 25 QPS.

  4. Os projetos A e B ainda precisam de mais cota. Portanto, a cota extra do projeto D (15 QPS) é dividida e distribuída igualmente para os projetos A e B (7,5 QPS cada).

  5. O projeto B recebe 7,5 QPS do projeto D para atingir 32,5 QPS, e o projeto A está restrito a uma quantidade de 32,5 QPS. O projeto A recebe um erro 429 para as solicitações que excedem a capacidade alocada.

Exemplo de capacidade em uma região específica

O Google Cloud analisa a capacidade disponível em uma região específica, como a América do Norte, e verifica quantos projetos estão enviando solicitações.

Considere o projeto A, que envia 25 consultas por minuto (QPM), e o projeto B, que envia 25 QPM. O serviço pode oferecer suporte a 100 QPM. Se o projeto A aumentar a taxa de consultas para 75 QPS, a DSQ vai suportar o aumento. Se o projeto A aumentar a taxa de consultas para 100 QPM, a DSQ vai diminuir o projeto A para 75 QPM para continuar a oferecer o projeto B a 25 QPM.

Considerações

Antes de decidir comprar um modelo compatível com a DSQ, leia as considerações a seguir:

Consideração Solução
Controle os custos e evite estouros de orçamento. Configure uma cota autoimposta chamada de substituição de cota do consumidor. Para mais informações, consulte Como criar uma modificação de cota do consumidor.
Priorize o tráfego. Use a capacidade de processamento provisionada.
Monitore o uso. Confira as seguintes métricas:
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
Para mais informações, consulte a seção aiplatform na documentação do Cloud Monitoring.

Monitorar o uso de QPS

Para monitorar o uso de QPS do Gemini, consulte a página Cotas e limites do sistema.

Resolver erros de DSQ

Quando a capacidade compartilhada por região for esgotada, sua consulta poderá receber um erro 429. Para resolver erros que possam ocorrer, consulte Código de erro 429.

A seguir