Esta página foi traduzida pela API Cloud Translation.

Visão geral da capacidade de processamento provisionada

Esta página explica o que é a capacidade de processamento provisionada e quando usá-la.

Introdução à capacidade de processamento provisionada

A capacidade de processamento provisionada é uma assinatura de custo e prazo fixos disponível em vários períodos que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.

Quando usar a capacidade de processamento provisionada

Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:

Você está criando aplicativos de produção de IA generativa em tempo real, como chatbots e agentes.
Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.

A capacidade de processamento provisionada é uma das duas maneiras de consumir seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como sob demanda.

A seguir

Modelos compatíveis usando a capacidade de processamento provisionada.