Descripción general de la capacidad de procesamiento aprovisionada
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se explica qué es la capacidad de procesamiento aprovisionada y cuándo usarla.
Introducción a la capacidad de procesamiento aprovisionada
La capacidad de procesamiento aprovisionada es una suscripción de costo fijo y plazo fijo disponible en varias duraciones que reserva capacidad de procesamiento para los modelos de IA generativa compatibles en Vertex AI.
Para reservar tu rendimiento, debes especificar el modelo y las ubicaciones disponibles en las que se ejecuta.
Cuándo usar la capacidad de procesamiento aprovisionada
Si alguna de las siguientes consideraciones se aplica a tu caso de uso, considera usar la capacidad de procesamiento aprovisionada:
Estás creando aplicaciones de producción de IA generativa en tiempo real, como chatbots y agentes.
Tus cargas de trabajo críticas requieren constantemente una capacidad de procesamiento alta. La medición del rendimiento depende del modelo.
Quieres proporcionar una experiencia coherente y predecible para los usuarios de tus aplicaciones.
Quieres costos de IA generativa determinística pagando un precio mensual o semanal fijo con control de los excesos.
La capacidad de procesamiento aprovisionada es una de las dos formas de procesar la compra de consumible de tus modelos de IA generativa. La segunda forma es el pago por uso, que también se conoce como a pedido.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[],[],null,["# Provisioned Throughput overview\n\nThis page explains what Provisioned Throughput is and when to use Provisioned Throughput.\n\nIntroduction to Provisioned Throughput\n--------------------------------------\n\nProvisioned Throughput is a fixed-cost, fixed-term subscription\navailable in several term-lengths that reserves throughput for\n[supported generative AI models](/vertex-ai/generative-ai/docs/supported-models) on Vertex AI.\nTo reserve your throughput, you must specify the model and [available\nlocations](/vertex-ai/generative-ai/docs/learn/locations#available-regions) in which the model\nruns.\n\nWhen to use Provisioned Throughput\n----------------------------------\n\nIf any of the following considerations apply to your use case, consider using\nProvisioned Throughput:\n\n- You are building real-time generative AI production applications, such as chatbots and agents.\n- Your critical workloads consistently require high throughput. Throughput measurement depends on the model.\n- You want to provide a consistent and predictable experience for users of your applications.\n- You want deterministic generative AI costs by paying a fixed monthly or weekly price with control of overages.\n\nProvisioned Throughput is one of two ways to consume your\ngenerative AI models. The second way is pay-as-you-go, which is also referred to\nas [on-demand](/vertex-ai/generative-ai/docs/error-code-429#troubleshoot-dynamic-shared-quota).\n\nWhat's next\n-----------\n\n- [Supported models](/vertex-ai/generative-ai/docs/supported-models) using Provisioned Throughput."]]