Usa la capacidad de procesamiento aprovisionada

En esta página, se explica cómo funciona la capacidad de procesamiento aprovisionada, cómo controlar los excedentes u omitir la capacidad de procesamiento aprovisionada y cómo supervisar el uso.

Cómo funciona la capacidad de procesamiento aprovisionada

En esta sección, se explica cómo funciona la capacidad de procesamiento aprovisionada a través de la verificación de cuotas durante el período de aplicación de cuotas.

Verificación de la cuota de capacidad de procesamiento aprovisionada

Tu cuota máxima de capacidad de procesamiento aprovisionada es un múltiplo de la cantidad de unidades de escalamiento de IA generativa (GSU) compradas y la capacidad de procesamiento por GSU. Se verifica cada vez que realizas una solicitud dentro de tu período de aplicación de la cuota, que es la frecuencia con la que se aplica la cuota máxima de capacidad de procesamiento aprovisionada.

En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Dado que priorizamos la velocidad de respuesta para las aplicaciones en tiempo real, la capacidad de procesamiento aprovisionada estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de procesamiento aprovisionada disponible, la solicitud se procesa como pago por uso. De lo contrario, se procesa como capacidad de procesamiento aprovisionada. Para ello, se compara la estimación inicial con tu cuota máxima de capacidad de procesamiento aprovisionada.

Cuando se genera la respuesta y se conoce el tamaño real del token de salida, se concilian el uso y la cuota reales agregando la diferencia entre la estimación y el uso real a la cantidad de cuota de capacidad de procesamiento aprovisionada disponible.

Período de aplicación de la cuota de capacidad de procesamiento aprovisionada

En el caso de los modelos de Gemini, el período de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere tu cuota por segundo, pero no deberías superar tu cuota por cada 30 segundos. Estos períodos se basan en el reloj interno de Vertex AI y son independientes del momento en que se realizan las solicitudes.

Por ejemplo, si compras una GSU de gemini-2.0-flash-001, deberías esperar 3,360 tokens por segundo de capacidad de procesamiento siempre activa. En promedio, no puedes superar los 100,800 tokens en un período de 30 segundos, lo que se calcula con la siguiente fórmula:

3,360 tokens per second * 30 seconds = 100,800 tokens

Si, en un día, enviaste solo una solicitud que consumió 8,000 tokens en un segundo, es posible que se procese como una solicitud de capacidad de procesamiento aprovisionada, aunque hayas superado el límite de 3,360 tokens por segundo en el momento de la solicitud. Esto se debe a que la solicitud no superó el umbral de 100,800 tokens por 30 segundos.

Cómo controlar los excedentes o omitir la capacidad de procesamiento aprovisionada

Usa la API para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.

Comportamiento predeterminado

Si superas la cantidad de capacidad de procesamiento que compraste, los excedentes se destinan a la capacidad de procesamiento bajo demanda y se facturan según la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se aplicará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido, siempre y cuando lo hagas en la región aprovisionada.

Usar solo la capacidad de procesamiento aprovisionada

Si administras los costos evitando los cargos según demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superen el importe del pedido de capacidad de procesamiento aprovisionada devolverán un error 429.

Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type en dedicated.

Usar solo el modelo de pago por uso

Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de capacidad de procesamiento aprovisionada y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones en desarrollo.

Cuando envíes solicitudes a la API, configura el encabezado HTTP X-Vertex-AI-LLM-Request-Type en shared.

Ejemplo

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Supervisa la capacidad de procesamiento aprovisionada

Puedes supervisar por tu cuenta el uso de la capacidad de procesamiento aprovisionada con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel.

El monitoreo del tráfico de la capacidad de procesamiento aprovisionada es una función de versión preliminar pública.

Dimensiones

Puedes filtrar las métricas con las siguientes dimensiones:

Dimensión Valores
type input
output
request_type

dedicated: El tráfico se procesa con la capacidad de procesamiento aprovisionada.

spillover: El tráfico se procesa como cuota de pago por uso después de que superas tu cuota de capacidad de procesamiento aprovisionada.

shared: Si el rendimiento aprovisionado está activo, el tráfico se procesa como una cuota de pago por uso con el encabezado HTTP compartido. Si la capacidad de procesamiento aprovisionada no está activa, el tráfico se procesa como pago por uso de forma predeterminada.

Prefijo de ruta de acceso

El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving.

Por ejemplo, la ruta completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel para los modelos de Gemini. Usa los tipos de solicitudes dedicated para filtrar el uso de la capacidad de procesamiento aprovisionada.

Métrica Nombre visible Descripción
/dedicated_gsu_limit Límite (GSU) Límite exclusivo en GSU. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada en GSU.
/tokens Tokens Distribución del recuento de tokens de entrada y salida.
/token_count Recuento de tokens Cantidad acumulada de tokens de entrada y salida.
/consumed_token_throughput Capacidad de procesamiento de tokens Uso de la capacidad de procesamiento, que tiene en cuenta la tasa de consumo en tokens y que incorpora la conciliación de cuotas. Consulta Verificación de la cuota de capacidad de procesamiento aprovisionada.

Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada.
/dedicated_token_limit Límite (tokens por segundo) Es el límite dedicado en tokens por segundo. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada para los modelos basados en tokens.
/characters Caracteres Distribución del recuento de caracteres de entrada y salida.
/character_count Recuento de caracteres Es el recuento acumulado de caracteres de entrada y salida.
/consumed_throughput Capacidad de procesamiento de caracteres Uso de la capacidad de procesamiento, que tiene en cuenta la tasa de consumo en caracteres y que incorpora la conciliación de la cuota verificación de la cuota de capacidad de procesamiento aprovisionada.

Usa esta métrica para comprender cómo se usó tu cuota de capacidad de procesamiento aprovisionada.

En el caso de los modelos basados en tokens, esta métrica equivale al rendimiento consumido en tokens multiplicado por 4.
/dedicated_character_limit Límite (caracteres por segundo) Límite exclusivo en caracteres por segundo. Usa esta métrica para comprender tu cuota máxima de capacidad de procesamiento aprovisionada para los modelos basados en caracteres.
/model_invocation_count Recuento de invocaciones de modelos Cantidad de invocaciones de modelos (solicitudes de predicción).
/model_invocation_latencies Latencias de invocación de modelos Latencias de invocación del modelo (latencia de predicción)
/first_token_latencies Latencias del primer token Es la duración desde que se recibe la solicitud hasta que se muestra el primer token.

Los modelos de Anthropic también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count.

Paneles

Los paneles de supervisión predeterminados para la capacidad de procesamiento aprovisionada proporcionan métricas que te permiten comprender mejor tu uso y la utilización de la capacidad de procesamiento aprovisionada. Para acceder a los paneles, haz lo siguiente:

  1. En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.

    En la tabla Uso de la capacidad de procesamiento aprovisionada por modelo, puedes ver lo siguiente para el período seleccionado:

    • Cantidad total de GSU que tenías.

    • Uso máximo de capacidad de procesamiento en términos de GSU.

    • Es el uso promedio de GSU.

    • Es la cantidad de veces que alcanzaste tu límite de capacidad de procesamiento aprovisionada.

  3. Selecciona un modelo en la tabla Utilización del procesamiento aprovisionado por modelo para ver más métricas específicas del modelo seleccionado.

Limitaciones del panel

Es posible que el panel muestre resultados inesperados, en especial para el tráfico fluctuante que es repentino o poco frecuente (por ejemplo, menos de 1 búsqueda por segundo). Los siguientes motivos podrían contribuir a esos resultados:

  • Los períodos superiores a 12 horas pueden generar una representación menos precisa del período de aplicación de la cuota. Las métricas de capacidad de procesamiento y sus derivadas, como la utilización, muestran promedios en los períodos de alineación que se basan en el intervalo de tiempo seleccionado. Cuando se expande el período, también se expande cada período de alineación. El período de alineación se extiende durante el cálculo del uso promedio. Dado que la aplicación de la cuota se calcula a nivel de subminuto, establecer el período en un lapso de 12 horas o menos genera datos a nivel de minutos que son más comparables con el período real de aplicación de la cuota. Para obtener más información sobre los períodos de alineación, consulta Alineación: regularización dentro de la serie. Para obtener más información sobre los períodos, consulta Regularización de intervalos de tiempo.
  • Si se enviaron varias solicitudes al mismo tiempo, es posible que las agregaciones de supervisión afecten tu capacidad de filtrar solicitudes específicas.
  • La capacidad de procesamiento aprovisionada limita el tráfico cuando se realiza una solicitud, pero informa las métricas de uso después de que se concilia la cuota.
  • Los períodos de aplicación de la cuota de capacidad de procesamiento aprovisionada son independientes de los períodos de agregación de la supervisión o de los períodos de solicitud o respuesta, y es posible que no coincidan con ellos.
  • Si no se produjeron errores, es posible que veas un mensaje de error en el gráfico de la tasa de errores. Por ejemplo, Se produjo un error cuando se solicitaron los datos. No se encontraron uno o más recursos.

Supervisa los modelos de Genmedia

Las métricas de los modelos Imagen y Veo 3 expresan el rendimiento en tokens, de la siguiente manera:

  • Para los modelos de Veo: 100 tokens = 1 segundo de video

  • Para los modelos de Imagen: 1 token = 1 imagen

Por ejemplo, si supervisas el uso de la capacidad de procesamiento aprovisionada para el modelo Veo 3, la métrica /consumed_token_throughput representa la capacidad de procesamiento de segundos de video y la métrica /dedicated_token_limit representa el límite dedicado en segundos de video por segundo.

Para obtener información sobre las tasas de consumo de cada modelo, consulta Modelos compatibles. Por ejemplo, si usas Veo 3, entonces 1 segundo de audio y video de salida equivale a 1.6 segundos de video de salida. Por lo tanto, en este caso, 1 segundo de video y audio equivale a 160 tokens.

Alertas

Después de habilitar las alertas, configura las alertas predeterminadas para ayudarte a administrar el uso del tráfico.

Habilitar alertas

Para habilitar las alertas en el panel, haz lo siguiente:

  1. En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para ver el uso de la capacidad de procesamiento aprovisionada de cada modelo en tus pedidos, selecciona la pestaña Resumen de uso.

  3. Selecciona Alertas recomendadas y se mostrarán las siguientes alertas:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Consulta las alertas que te ayudan a administrar tu tráfico.

Ver más detalles de la alerta

Para ver más información sobre las alertas, haz lo siguiente:

  1. Ve a la página Integraciones.

    Ir a Integraciones

  2. Ingresa vertex en el campo Filter y presiona Intro. Aparecerá Google Vertex AI.

  3. Para ver más información, haz clic en Ver detalles. Se mostrará el panel Detalles de Google Vertex AI.

  4. Selecciona la pestaña Alertas y, luego, podrás seleccionar una plantilla de Política de alertas.

¿Qué sigue?