Se o número de solicitações exceder a capacidade alocada para processar
solicitações, o código de erro 429
será retornado. A tabela a seguir mostra a mensagem de erro gerada por cada tipo de framework de cota:
Framework de cota | Mensagem |
---|---|
Pagamento por utilização | Resource exhausted, please try again later. |
Capacidade de processamento provisionada | Too many requests. Exceeded the Provisioned Throughput. |
Com uma assinatura de capacidade de processamento provisionada, é possível reservar uma quantidade de capacidade de processamento para modelos específicos de IA generativa. Se você não tiver uma assinatura de taxa de transferência provisionada e os recursos não estiverem disponíveis para seu aplicativo, um código de erro 429
será retornado. Mesmo que você não tenha capacidade reservada, tente fazer a solicitação de novo. No entanto, a solicitação não é contabilizada na taxa de erros, conforme descrito no contrato de nível de serviço (SLA).
Para projetos que compraram taxa de transferência provisionada, a Vertex AI mede a taxa de transferência de um projeto e reserva a quantidade comprada para o uso real do projeto.
Para a capacidade de processamento provisionada padrão, quando você usa menos do que o valor comprado, erros que poderiam ser 429
são retornados como 5XX
e contam para a taxa de erro do SLA. Para o throughput provisionado de zona única, quando você usa menos do que a quantidade comprada, os erros 429
relacionados à capacidade são tratados como 5XX
, mas não contam para a taxa de erros do SLA. Quando você excede a quantidade comprada, as solicitações adicionais são processadas sob demanda como pagamento por uso.
Pagamento por utilização
No framework de cota de pagamento por uso, você tem as seguintes opções para resolver erros de 429
:
- Use o endpoint global em vez de um regional sempre que possível.
- Implemente uma estratégia de repetição usando espera exponencial truncada.
- Se o modelo usar cotas, envie uma Solicitação de Aumento de Cota (QIR). Se o modelo usar a cota compartilhada dinâmica, suavizar o tráfego e reduzir picos grandes pode ajudar. Para mais informações, consulte Cota compartilhada dinâmica (DSQ).
- Inscreva-se na capacidade de processamento provisionada para ter um nível de serviço mais consistente. Para mais informações, consulte Capacidade de processamento provisionada.
Capacidade de processamento provisionada
Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:
- Use o exemplo de comportamento padrão, que não define um cabeçalho em solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
- Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre a capacidade provisionada, consulte Capacidade provisionada.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do sistema, consulte a documentação do Cloud Quotas. Google Cloud
- Para saber mais sobre erros de API, consulte Erros de API.