Visão geral da capacidade de processamento provisionada

Esta página explica o que é a capacidade de processamento provisionada e quando usá-la.

Introdução à capacidade de processamento provisionada

A capacidade de processamento provisionada é um serviço semanal ou de assinatura mensal de custo fixo que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.

Quando usar a capacidade de processamento provisionada

Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:

  • Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
  • Você está criando aplicativos de produção de IA generativa em tempo real, como chatbots e agentes.
  • Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
  • Você quer custos de IA generativa determinísticos pagando um preço mensal fixo com controle de gastos excedentes.
  • Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.

A capacidade de processamento provisionada é uma das duas maneiras de consumir seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como sob demanda.

A seguir