Cota de capacidade

A Vertex AI oferece duas maneiras de gerenciar a capacidade de processamento dos seus modelos de IA generativa, permitindo equilibrar custo, flexibilidade e desempenho. É possível usar um modelo flexível de pagamento por uso ou reservar uma quantidade dedicada de capacidade de transferência por um preço fixo.

Pagamento por utilização

No modelo padrão de pagamento por uso, a Vertex AI usa a cota compartilhada dinâmica, que não tem um limite de uso predefinido. Em vez disso, você tem acesso a um grande pool compartilhado de recursos que são alocados dinamicamente com base na disponibilidade e na demanda em tempo real.

Esse modelo permite que suas cargas de trabalho usem mais recursos quando eles estão disponíveis. Se você receber um erro resource exhausted (429), isso significa que o pool compartilhado está temporariamente com alta demanda de muitos usuários ao mesmo tempo. Implemente mecanismos de nova tentativa no aplicativo, já que a disponibilidade pode mudar rapidamente.

Capacidade reservada

Para aplicativos de produção críticos que exigem desempenho consistente e custos previsíveis, use a capacidade de processamento provisionada. A capacidade de processamento provisionada é uma assinatura de custo fixo que reserva uma quantidade específica de capacidade de processamento para seus modelos em um local escolhido.

A seguir