Descripción general de la capacidad de procesamiento aprovisionada

En esta página, se explica qué es la capacidad de procesamiento aprovisionada y cuándo usarla.

Introducción a la capacidad de procesamiento aprovisionada

La capacidad de procesamiento aprovisionada es un servicio mediante suscripción mensual o semanal con costo fijo que reserva capacidad de procesamiento para los modelos de IA generativa compatibles en Vertex AI. Para reservar tu rendimiento, debes especificar el modelo y las ubicaciones disponibles en las que se ejecuta.

Cuándo usar la capacidad de procesamiento aprovisionada

Si se cumple alguna de las siguientes consideraciones en tu caso de uso, considera usar la capacidad de procesamiento aprovisionada:

  • Tus cargas de trabajo críticas requieren constantemente una alta capacidad de procesamiento. La medición de la capacidad de procesamiento depende del modelo.
  • Estás compilando aplicaciones de producción de IA generativa en tiempo real, como chatbots y agentes.
  • Deseas proporcionar una experiencia coherente y predecible a los usuarios de tus aplicaciones.
  • Quieres costos de IA generativa determinística pagando un precio mensual fijo con control de los excesos.
  • Quieres costos de IA generativa determinística pagando un precio mensual o semanal fijo con control de los excesos.

La capacidad de procesamiento aprovisionada es una de las dos formas de procesar la compra de consumible de tus modelos de IA generativa. La segunda forma es el pago por uso, que también se conoce como a pedido.

¿Qué sigue?