En esta página, se explica cómo funciona la capacidad de procesamiento aprovisionada, cómo controlar los excedentes u omitir la capacidad de procesamiento aprovisionada y cómo supervisar el uso.
Cómo funciona la capacidad de procesamiento aprovisionada
En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada a través de la verificación de cuotas durante el período de aplicación de cuotas.
Verificación de la cuota de capacidad de procesamiento aprovisionada
Tu cuota máxima de capacidad de procesamiento aprovisionada es un múltiplo de la cantidad de unidades de escalamiento de IA generativa (GSU) compradas y la capacidad de procesamiento por GSU. Se verifica cada vez que realizas una solicitud dentro de tu período de aplicación de la cuota, que es la frecuencia con la que se aplica la cuota máxima de capacidad de procesamiento aprovisionada.
En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Dado que priorizamos la velocidad de respuesta para las aplicaciones en tiempo real, la capacidad de procesamiento aprovisionada estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de procesamiento aprovisionada disponible, la solicitud se procesa como pago por uso. De lo contrario, se procesa como capacidad de procesamiento aprovisionada. Para ello, se compara la estimación inicial con tu cuota máxima de capacidad de procesamiento aprovisionada.
Cuando se genera la respuesta y se conoce el tamaño real del token de salida, se concilian el uso y la cuota reales agregando la diferencia entre la estimación y el uso real a la cantidad de cuota de capacidad de procesamiento aprovisionada disponible.
Período de aplicación de la cuota de capacidad de procesamiento aprovisionada
En el caso de los modelos de Gemini, el período de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere tu cuota por segundo, pero no deberías superar tu cuota por cada 30 segundos. Estos períodos se basan en el reloj interno de Vertex AI y son independientes del momento en que se realizan las solicitudes.
Por ejemplo, si compras una GSU de gemini-2.0-flash-001
, deberías esperar 3,360 tokens por segundo de capacidad de procesamiento siempre activa. En promedio, no puedes superar los 100,800 tokens en un período de 30 segundos, lo que se calcula con la siguiente fórmula:
3,360 tokens per second * 30 seconds = 100,800 tokens
Si, en un día, enviaste solo una solicitud que consumió 8,000 tokens en un segundo, es posible que se procese como una solicitud de capacidad de procesamiento aprovisionada, aunque hayas superado el límite de 3,360 tokens por segundo en el momento de la solicitud. Esto se debe a que la solicitud no superó el umbral de 100,800 tokens por 30 segundos.
Cómo controlar los excedentes o omitir la capacidad de procesamiento aprovisionada
Usa la API para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.
Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.
Comportamiento predeterminado
Si superas la cantidad de capacidad de procesamiento que compraste, los excedentes se destinan a la capacidad de procesamiento bajo demanda y se facturan según la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se aplicará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido, siempre y cuando lo hagas en la región aprovisionada.
Usar solo la capacidad de procesamiento aprovisionada
Si administras los costos evitando los cargos según demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superen el importe del pedido de capacidad de procesamiento aprovisionada devolverán un error 429
.
Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type
en dedicated
.
Usar solo el modelo de pago por uso
Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de capacidad de procesamiento aprovisionada y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones en desarrollo.
Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type
en shared
.
Ejemplo
Python
Instalar
pip install --upgrade google-genai
Para obtener más información, consulta la documentación de referencia del SDK.
Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Supervisa la capacidad de procesamiento aprovisionada
Puedes supervisar por tu cuenta el uso de la capacidad de procesamiento aprovisionada con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel
.
El monitoreo del tráfico de la capacidad de procesamiento aprovisionada es una función de versión preliminar pública.
Dimensiones
Puedes filtrar las métricas con las siguientes dimensiones:
Dimensión | Valores |
---|---|
type |
input output |
request_type |
|
Prefijo de ruta de acceso
El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving
.
Por ejemplo, la ruta completa de la métrica /consumed_throughput
es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Métricas
Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel
para los modelos de Gemini. Usa los tipos de solicitudes dedicated
para filtrar el uso de la capacidad de procesamiento aprovisionada.
Métrica | Nombre visible | Descripción |
---|---|---|
/dedicated_gsu_limit |
Límite (GSU) | Límite exclusivo en GSU. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada en GSU. |
/tokens |
Tokens | Distribución del recuento de tokens de entrada y salida. |
/token_count |
Recuento de tokens | Cantidad acumulada de tokens de entrada y salida. |
/consumed_token_throughput |
Capacidad de procesamiento de tokens | Uso de la capacidad de procesamiento, que tiene en cuenta la tasa de consumo en tokens y que incorpora la conciliación de cuotas. Consulta Verificación de la cuota de capacidad de procesamiento aprovisionada. Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada. |
/dedicated_token_limit |
Límite (tokens por segundo) | Es el límite dedicado en tokens por segundo. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada para los modelos basados en tokens. |
/characters |
Caracteres | Distribución del recuento de caracteres de entrada y salida. |
/character_count |
Recuento de caracteres | Es el recuento acumulado de caracteres de entrada y salida. |
/consumed_throughput |
Capacidad de procesamiento de caracteres | Uso de la capacidad de procesamiento, que tiene en cuenta la tasa de consumo en caracteres y que incorpora la conciliación de la cuota verificación de la cuota de capacidad de procesamiento aprovisionada. Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada. En el caso de los modelos basados en tokens, esta métrica equivale al rendimiento consumido en tokens multiplicado por 4. |
/dedicated_character_limit |
Límite (caracteres por segundo) | Límite exclusivo en caracteres por segundo. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada para los modelos basados en caracteres. |
/model_invocation_count |
Recuento de invocaciones de modelos | Cantidad de invocaciones de modelos (solicitudes de predicción). |
/model_invocation_latencies |
Latencias de invocación de modelos | Latencias de invocación del modelo (latencia de predicción) |
/first_token_latencies |
Latencias del primer token | Es la duración desde que se recibe la solicitud hasta que se muestra el primer token. |
Los modelos de Anthropic también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count
.
Paneles
Los paneles de supervisión predeterminados para la capacidad de procesamiento aprovisionada proporcionan métricas que te permiten comprender mejor tu uso y la utilización de la capacidad de procesamiento aprovisionada. Para acceder a los paneles, haz lo siguiente:
En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
En la tabla Uso de la capacidad de procesamiento aprovisionada por modelo, puedes ver lo siguiente para el período seleccionado:
Cantidad total de GSU que tenías.
Uso máximo de capacidad de procesamiento en términos de GSU.
Es el uso promedio de GSU.
Es la cantidad de veces que alcanzaste tu límite de capacidad de procesamiento aprovisionada.
Selecciona un modelo en la tabla Utilización del procesamiento aprovisionado por modelo para ver más métricas específicas del modelo seleccionado.
Limitaciones del panel
Es posible que el panel muestre resultados inesperados, en especial para el tráfico fluctuante que es repentino o poco frecuente (por ejemplo, menos de 1 búsqueda por segundo). Los siguientes motivos podrían contribuir a esos resultados:
- Los períodos superiores a 12 horas pueden generar una representación menos precisa del período de aplicación de la cuota. Las métricas de capacidad de procesamiento y sus derivadas, como la utilización, muestran promedios en los períodos de alineación que se basan en el intervalo de tiempo seleccionado. Cuando se expande el período, también se expande cada período de alineación. El período de alineación se extiende durante el cálculo del uso promedio. Dado que la aplicación de la cuota se calcula a nivel de subminuto, establecer el período en un lapso de 12 horas o menos genera datos a nivel de minutos que son más comparables con el período real de aplicación de la cuota. Para obtener más información sobre los períodos de alineación, consulta Alineación: regularización dentro de la serie. Para obtener más información sobre los períodos, consulta Regularización de intervalos de tiempo.
- Si se enviaron varias solicitudes al mismo tiempo, es posible que las agregaciones de supervisión afecten tu capacidad de filtrar solicitudes específicas.
- La capacidad de procesamiento aprovisionada limita el tráfico cuando se realiza una solicitud, pero informa las métricas de uso después de que se concilia la cuota.
- Los períodos de aplicación de la cuota de capacidad de procesamiento aprovisionada son independientes de los períodos de agregación de la supervisión o de los períodos de solicitud o respuesta, y es posible que no coincidan con ellos.
- Si no se produjeron errores, es posible que veas un mensaje de error en el gráfico de la tasa de errores. Por ejemplo, Se produjo un error cuando se solicitaron los datos. No se encontraron uno o más recursos.
Supervisa los modelos de Genmedia
Las métricas de los modelos Imagen y Veo 3 expresan el rendimiento en tokens, de la siguiente manera:
Para los modelos de Veo: 100 tokens = 1 segundo de video
Para los modelos de Imagen: 1 token = 1 imagen
Por ejemplo, si supervisas el uso de la capacidad de procesamiento aprovisionada para el modelo Veo 3, la métrica /consumed_token_throughput
representa la capacidad de procesamiento de segundos de video y la métrica /dedicated_token_limit
representa el límite dedicado en segundos de video por segundo.
Para obtener información sobre las tasas de consumo de cada modelo, consulta Modelos compatibles. Por ejemplo, si usas Veo 3, entonces 1 segundo de audio y video de salida equivale a 1.6 segundos de video de salida. Por lo tanto, en este caso, 1 segundo de video y audio equivale a 160 tokens.
Alertas
Después de habilitar las alertas, configura las alertas predeterminadas para ayudarte a administrar el uso del tráfico.
Habilitar alertas
Para habilitar las alertas en el panel, haz lo siguiente:
En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.
Selecciona Alertas recomendadas y se mostrarán las siguientes alertas:
Provisioned Throughput Usage Reached Limit
Provisioned Throughput Utilization Exceeded 80%
Provisioned Throughput Utilization Exceeded 90%
Consulta las alertas que te ayudan a administrar tu tráfico.
Ver más detalles de la alerta
Para ver más información sobre las alertas, haz lo siguiente:
Ve a la página Integraciones.
Ingresa vertex en el campo Filter y presiona Intro. Aparecerá Google Vertex AI.
Para ver más información, haz clic en Ver detalles. Se mostrará el panel Detalles de Google Vertex AI.
Selecciona la pestaña Alertas y, luego, podrás seleccionar una plantilla de Política de alertas.
¿Qué sigue?
- Soluciona el problema del código de error
429
.