Esta página explica o que é a capacidade de processamento provisionada e quando usá-la.
Introdução à capacidade de processamento provisionada
A capacidade de processamento provisionada é um serviço semanal ou de assinatura mensal de custo fixo que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.
Quando usar a capacidade de processamento provisionada
Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:
- Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
- Você está criando aplicativos de produção de IA generativa em tempo real, como chatbots e agentes.
- Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
- Você quer custos de IA generativa determinísticos pagando um preço mensal fixo com controle de gastos excedentes.
- Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.
A capacidade de processamento provisionada é uma das duas maneiras de consumir seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como sob demanda.
A seguir
- Modelos compatíveis que usam a capacidade de processamento provisionada.