En esta página se proporcionan detalles que debe tener en cuenta antes de suscribirse a Rendimiento provisionado, los permisos que debe tener para hacer o ver un pedido de Rendimiento provisionado y las instrucciones para hacer y ver sus pedidos de Rendimiento provisionado estándar.
Si quieres comprar Single Zone Provisioned Throughput, ponte en contacto con tu Google Cloud representante de cuenta para obtener ayuda. Para obtener más información sobre el rendimiento aprovisionado de una sola zona, consulta Rendimiento aprovisionado de una sola zona.
Qué debes tener en cuenta antes de comprar
Para ayudarte a decidir si quieres comprar Provisioned Throughput, ten en cuenta lo siguiente:
No puedes cancelar tu pedido a mitad del periodo.
La compra de throughput aprovisionado es un compromiso, lo que significa que no puedes cancelar el pedido a mitad del plazo. Sin embargo, puedes aumentar el número de GSUs compradas. Si compras por error un compromiso o hay algún problema con tu configuración, ponte en contacto con tuGoogle Cloud representante de cuenta para obtener ayuda.
Puedes renovar tu suscripción automáticamente.
Cuando envíes tu pedido, podrás elegir si quieres que tu suscripción se renueve automáticamente al final del periodo o si quieres que caduque. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente periodo.
Puedes configurar las suscripciones mensuales para que se renueven automáticamente cada mes. Los términos semanales no admiten la renovación automática.
Para obtener más información, consulta Cambiar el orden de Provisioned Throughput. También puedes ponerte en contacto con tu Google Cloud representante de cuenta para obtener ayuda.
Puedes cambiar el comportamiento, el modelo, la versión del modelo o la región de la renovación automática avisándonos con antelación.
Una vez que haya elegido el proyecto, la región, el modelo, la versión del modelo y el comportamiento de renovación automática, y se haya aprobado y activado su pedido, se habilitará el rendimiento aprovisionado, sujeto a la capacidad disponible. Puedes cambiar el comportamiento de renovación automática, el modelo, la versión del modelo o la región modificando tu pedido de capacidad de procesamiento aprovisionada con la Google Cloud consola.
Todos los cambios se procesan de la mejor forma posible y suelen completarse en un plazo de 10 días hábiles a partir de la solicitud inicial.
Los cambios en el modelo se limitan a un editor específico. Por ejemplo, puedes cambiar el modelo asignado a la capacidad de procesamiento aprovisionada de Google Gemini 2.0 Pro a Google Gemini 2.0 Flash, pero no puedes cambiar de Google Gemini 2.0 Flash a Claude 3.5 Sonnet v2 de Anthropic.
De forma predeterminada, el exceso se factura con la modalidad de pago por uso.
Si tu capacidad de procesamiento supera la cantidad de capacidad de procesamiento aprovisionada que has pedido, los excesos se procesan y se facturan como pago por uso estándar. Puedes controlar los excesos por solicitud. Para obtener más información, consulta Usar el throughput aprovisionado.
Para obtener información sobre los precios, consulta Throughput aprovisionado.
Comprar el rendimiento aprovisionado de los modelos de vista previa
Puedes comprar el servicio de rendimiento aprovisionado para los modelos de Google en versión preliminar, siempre que no se haya lanzado una versión disponible de forma general del modelo.
Si tienes un pedido de rendimiento aprovisionado activo para un modelo de vista previa y se lanza una versión disponible de forma general del modelo, puedes hacer lo siguiente:
Mueve el pedido a la versión del modelo que está disponible de forma general. Ten en cuenta que, una vez que hayas cambiado tu pedido al modelo disponible de forma general, no podrás volver al modelo de vista previa. Para obtener más información sobre cómo cambiar un pedido, consulta Cambiar un pedido de throughput aprovisionado.
También puedes seguir usando Capacidad de procesamiento reservada para la versión preliminar de un modelo mientras esta sea estable. Para obtener más información sobre los modelos estables y retirados, consulta Versiones y ciclo de vida de los modelos.
Roles y permisos
El siguiente rol otorga acceso completo para gestionar el rendimiento aprovisionado de Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: puedes acceder a los recursos de Vertex AI Provisioned Throughput.
Este rol incluye los siguientes permisos:
Permisos | Descripción |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envía un nuevo pedido de rendimiento aprovisionado. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Ver un pedido de capacidad de procesamiento reservada específico. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Ver todos los pedidos de Provisioned Throughput. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modificar un pedido de capacidad de procesamiento reservada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancelar un pedido o una actualización pendientes. |
Hacer un pedido estándar de Provisioned Throughput
Es posible que algunas funciones de Imagen no estén disponibles públicamente. Para obtener más información, consulta el artículo Funciones de vista previa y de disponibilidad general restringida.
Antes de hacer un pedido para usar MedLM-large-1.5, ponte en contacto con tu representante de cuenta Google Cloud para solicitar acceso.
Si prevé que su QPM superará las 30.000, para maximizar su pedido de rendimiento aprovisionado, solicite un ajuste de cuota para su cuota predeterminada del sistema Vertex AI con la siguiente información:
- Servicio: la API de Vertex AI.
- Nombre:
Online prediction requests per minute per region
- Tipo de servicio: una cuota.
- Dimensiones: la región en la que has pedido el rendimiento aprovisionado.
- Valor: es el límite de tráfico de predicción online que has elegido.
Los pedidos de rendimiento aprovisionado se procesan en función del tamaño del pedido y de la capacidad disponible. En función del número de GSUs solicitadas y de la capacidad disponible, el procesamiento de tu pedido puede tardar desde unos minutos hasta varias semanas. Cuando hagas un pedido de rendimiento aprovisionado, puedes usar la herramienta de estimación de unidades de escalado de IA generativa para calcular el número de GSUs que necesitas comprar. Después de revisar la estimación, puede continuar con ella o modificar el número de GSUs que quiere comprar.
Sigue estos pasos para comprar el estándar de Provisioned Throughput. Si necesitas ayuda para comprar Single Zone Provisioned Throughput, ponte en contacto con tu representante de la cuenta de Google Cloud .
Consola
- En la Google Cloud consola, ve a la página Throughput aprovisionado.
- Para crear un pedido, haga clic en Nuevo pedido.
- Indique el nombre del pedido.
- Selecciona el Modelo.
- Seleccione la región.
- Haz clic en Herramienta de estimación.
En el panel Herramienta de estimación de unidades de escalado de IA generativa, sigue estos pasos para estimar el número de GSUs que necesitas.
- Selecciona tu modelo.
En función del modelo seleccionado, introduce los detalles para estimar el número de unidades de almacenamiento de Google que necesitas. Para obtener información sobre los mínimos y los incrementos de compra de GSU de cada modelo, consulte Modelos admitidos. Para obtener información sobre las funciones de un modelo y los límites de entrada o salida, consulta la documentación del modelo.
En los modelos Gemini 2.5 Pro y Gemini 2.5 Flash, introduce lo siguiente:
- Consultas por segundo estimadas que requieren garantías
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de respuesta de salida por consulta
- Tokens de texto de razonamiento de salida por consulta
- Imágenes de salida por consulta (solo se aplica a la vista previa de Gemini 2.5 Flash Image)
En el caso del modelo Gemini 2.5 Flash con API Live, introduce lo siguiente:
- Consultas por segundo estimadas que requieren garantías
- Tokens de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de memoria de sesión de entrada por consulta
- Tokens de texto de salida por consulta
- Tokens de audio de salida por consulta
En el modelo Gemini 2.5 Flash-Lite, introduce lo siguiente:
- Consultas por segundo estimadas que requieren garantías
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de respuesta de salida por consulta
- Tokens de texto de razonamiento de salida por consulta
En el caso de los modelos Gemini 2.0 Flash y Gemini 2.0 Flash-Lite, introduce lo siguiente:
- Consultas por segundo estimadas que requieren garantías
- Tokens de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de vídeo de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de salida por consulta
En el caso de los modelos Veo 3 y Veo 3 Fast, introduce lo siguiente:
- Consultas por segundo estimadas que requieren garantías
- Segundos de vídeo de salida por consulta
- Segundos de vídeo y audio de salida por consulta
En el caso de los modelos de Imagen, introduce lo siguiente:
- Consultas por segundo
- Imágenes de salida por consulta
En la sección GSUs y precios mensuales estimados, consulta el número estimado de GSUs que necesitas y los precios.
Haz clic en Usar calculado.
Opcional: Modifica el número de unidades de escalado de IA generativa (GSUs) al mes.
Selecciona el plazo. Ten en cuenta que las tarifas de los plazos no se pueden cancelar durante el plazo y se aplicarán independientemente del uso real o de si el modelo se ha discontinuado. Google te recomienda que cambies el modelo que tienes asignado antes de la fecha de discontinuación. Google no cancelará de forma proactiva la renovación automática de los modelos discontinuados.
Se encuentran disponibles las siguientes opciones:
- 1 semana
- 1 mes
- 3 meses
- 1 año
Opcional: Selecciona la fecha y hora de inicio del periodo (vista previa).
Puedes indicar una fecha y una hora de inicio en un plazo de dos semanas a partir del momento en que hagas el pedido. Si no especifica una fecha y una hora de inicio, el pedido se procesará en cuanto haya capacidad disponible. Las fechas y horas de inicio solicitadas se procesan en la medida de lo posible, y no se garantiza que los pedidos se completen antes de esas fechas hasta que su estado sea Aprobado.
Si la fecha de inicio que has solicitado está demasiado cerca de la fecha actual, es posible que tu pedido se apruebe y se active después de la fecha de inicio solicitada. En este caso, la fecha de finalización se ajusta en función de la duración del plazo seleccionado, a partir de la fecha de activación. Para obtener información sobre cómo cancelar un pedido pendiente, consulta Cambiar el pedido de Provisioned Throughput.
En la lista Renovación, especifica si quieres que el pedido se renueve automáticamente al final del periodo. Solo puedes especificar la opción de renovación si seleccionas 1 mes, 3 meses o 1 año como plazo.
Haz clic en Continuar.
En la sección Confirmar y enviar, revisa las estimaciones de precio y rendimiento de tu pedido. Lee los términos que se indican y se enlazan en el formulario.
Para finalizar y enviar tu pedido, introduce
CONFIRM
en el campo Confirmación de compra y haz clic en Enviar pedido.El procesamiento de un pedido puede tardar desde unos minutos hasta unas semanas, en función del tamaño del pedido y de la capacidad disponible. Una vez que se haya procesado el pedido, su estado en la consola de Google Cloud cambiará a Activo. Solo se te cobrará por el pedido cuando se active.
Cambiar un pedido de capacidad de procesamiento reservada estándar
En esta tabla se describe cómo puedes modificar tus pedidos de Provisioned Throughput a través de la consolaGoogle Cloud en función del estado de tu pedido y de las condiciones que haya. La modificación de pedidos es una función preliminar y solo está disponible para los pedidos online realizados a través de la consola. Para hacer cambios en los pedidos sin conexión, ponte en contacto con tu Google Cloud representante de cuenta para obtener ayuda.
Además, los cambios que se hagan en tu modelo o versión del modelo mediante la consola Google Cloud modificarán el orden actual, pero se mantendrá la misma fecha de finalización de la suscripción.
Estado del pedido | Acción | Nota | Pasos en la Google Cloud consola |
---|---|---|---|
Pendiente de revisión | Puedes cancelar tu pedido. |
Si quieres hacer más cambios en tu pedido, cancela el pedido pendiente y haz uno nuevo. Si tienes varios modelos, cada uno de ellos solo puede tener una revisión de pedido o un pedido pendiente a la vez. |
Para cancelar tu pedido pendiente en la consola de Google Cloud , haz lo siguiente:
|
Aprobación | No puedes modificar tu pedido. | El pedido está pendiente de activación. No puedes hacer cambios en tu pedido en este momento. | No aplicable |
Activo |
Solo puedes hacer los siguientes cambios si el pedido no caduca en los próximos cinco días o si se renueva automáticamente:
|
No puedes cambiar un pedido activo si caduca en menos de cinco días y no está configurado para renovarse automáticamente. | Para cambiar el pedido activo en la Google Cloud consola, usa uno de los siguientes métodos:
|
Comprobar el estado del pedido
Después de enviar tu pedido de throughput aprovisionado, el estado del pedido puede ser uno de los siguientes:
- Pendiente de revisión: has hecho tu pedido. Como la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este está pendiente de revisión y aprobación. Para obtener más información sobre el estado de tu pedido pendiente, ponte en contacto con tu Google Cloud representante de cuenta.
- Aprobado: Google ha aprobado tu pedido y está pendiente de activación. No puedes hacer cambios una vez que se haya aprobado el pedido.
- Activo: Google ha activado tu pedido y, a partir de ese momento, se inicia la facturación.
- Caducado: tu pedido ha caducado.
Ver pedidos de Standard Provisioned Throughput
Sigue estos pasos para ver tus pedidos de Provisioned Throughput:
Consola
- En la Google Cloud consola, ve a la página Rendimiento aprovisionado.
- Seleccione la región. Aparecerá tu lista de pedidos.