Esta página se ha traducido con Cloud Translation API.

Usar la capacidad de procesamiento reservada

En esta página se explica cómo funciona el rendimiento aprovisionado, cómo controlar los excesos o evitar el rendimiento aprovisionado y cómo monitorizar el uso.

Cómo funciona la capacidad de procesamiento reservada

En esta sección se explica cómo funciona el throughput aprovisionado mediante la comprobación de cuotas durante el periodo de aplicación de cuotas.

Comprobación de la cuota de capacidad de procesamiento reservada

Tu cuota máxima de rendimiento aprovisionado es un múltiplo del número de unidades de escalado de IA generativa (GSUs) que has comprado y del rendimiento por GSU. Se comprueba cada vez que haces una solicitud dentro de tu periodo de aplicación de la cuota, que es la frecuencia con la que se aplica la cuota máxima de rendimiento aprovisionado.

En el momento en que se recibe una solicitud, se desconoce el tamaño real de la respuesta. Como priorizamos la velocidad de respuesta de las aplicaciones en tiempo real, el rendimiento aprovisionado estima el tamaño del token de salida. Si la estimación inicial supera la cuota máxima de capacidad de proceso aprovisionada disponible, la solicitud se procesa con la modalidad de pago por uso. De lo contrario, se procesa con la modalidad de capacidad de proceso aprovisionada. Para ello, se compara la estimación inicial con la cuota máxima de throughput aprovisionado.

Cuando se genera la respuesta y se conoce el tamaño real del token de salida, el uso y la cuota reales se concilian añadiendo la diferencia entre la estimación y el uso real a la cantidad de cuota de capacidad de procesamiento aprovisionada disponible.

Periodo de cumplimiento de la cuota de capacidad de procesamiento reservada

En el caso de los modelos de Gemini, el periodo de aplicación de la cuota puede tardar hasta 30 segundos y está sujeto a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente un tráfico priorizado que supere la cantidad de tu cuota por segundo, pero no deberías superar tu cuota por cada 30 segundos. Estos periodos se basan en la hora del reloj interno de Vertex AI y son independientes del momento en que se realicen las solicitudes.

Por ejemplo, si compras una unidad de GSU de gemini-2.0-flash-001, deberías esperar 3360 tokens por segundo de rendimiento siempre activo. De media, no puedes superar los 100.800 tokens en un periodo de 30 segundos, que se calcula con la siguiente fórmula:

3,360 tokens per second * 30 seconds = 100,800 tokens

Si en un día solo envías una solicitud que consume 8000 tokens en un segundo, es posible que se procese como una solicitud de rendimiento aprovisionado, aunque hayas superado el límite de 3360 tokens por segundo en el momento de la solicitud. Esto se debe a que la solicitud no ha superado el umbral de 100.800 tokens por cada 30 segundos.

Controlar los excesos o evitar la capacidad de procesamiento reservada

Usa la API para controlar los excesos cuando superes el rendimiento que has comprado o para omitir el rendimiento aprovisionado por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir tu caso práctico.

Comportamiento predeterminado

Si superas la cantidad de capacidad de procesamiento que has comprado, el exceso se asigna a la modalidad bajo demanda y se factura según la tarifa de pago por uso. Una vez que tu pedido de Provisioned Throughput esté activo, el comportamiento predeterminado se producirá automáticamente. No tienes que cambiar el código para empezar a consumir tu pedido, siempre que lo hagas en la región aprovisionada.

Usar solo la capacidad de procesamiento reservada

Si quieres gestionar los costes evitando los cargos bajo demanda, usa solo el throughput aprovisionado. Las solicitudes que superen el importe del pedido de rendimiento aprovisionado devuelven un error 429.

Cuando envíes solicitudes a la API, define el encabezado HTTP X-Vertex-AI-LLM-Request-Type en dedicated.

Usar solo la opción de pago por uso

También se conoce como uso bajo demanda. Las solicitudes omiten el orden de la capacidad de procesamiento aprovisionada y se envían directamente al modelo de pago por uso. Esto puede ser útil para experimentos o aplicaciones que estén en desarrollo.

Cuando envíes solicitudes a la API, define el encabezado HTTP X-Vertex-AI-LLM-Request-Type como shared.

Ejemplo

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Consulta cómo instalar o actualizar Go.

Para obtener más información, consulta la documentación de referencia del SDK.

Define variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorizar la capacidad de procesamiento reservada

Puedes monitorizar por tu cuenta el uso del throughput aprovisionado mediante un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel.

La monitorización del tráfico de rendimiento aprovisionado es una función de Vista Previa Pública.

Dimensiones

Puede filtrar por métricas mediante las siguientes dimensiones:

Dimensión Valores

type input
output

Dimensión	Valores
`type`	`input` `output`
`request_type`	`dedicated`: el tráfico se procesa mediante la capacidad de procesamiento reservada. `spillover`: el tráfico se procesa como cuota de pago por uso cuando superas la cuota de capacidad de procesamiento aprovisionada. `shared`: si el throughput aprovisionado está activo, el tráfico se procesa como cuota de pago por uso mediante el encabezado HTTP compartido. Si el throughput aprovisionado no está activo, el tráfico se procesa de forma predeterminada con la modalidad de pago por uso.

request_type

dedicated: el tráfico se procesa mediante la capacidad de procesamiento reservada.

spillover: el tráfico se procesa como cuota de pago por uso cuando superas la cuota de capacidad de procesamiento aprovisionada.

shared: si el throughput aprovisionado está activo, el tráfico se procesa como cuota de pago por uso mediante el encabezado HTTP compartido. Si el throughput aprovisionado no está activo, el tráfico se procesa de forma predeterminada con la modalidad de pago por uso.

Prefijo de ruta

El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving.

Por ejemplo, la ruta completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel para los modelos de Gemini. Usa los tipos de solicitud dedicated para filtrar el uso de Provisioned Throughput.

Métrica	Nombre visible	Descripción
`/dedicated_gsu_limit`	Límite (GSU)	Límite específico en las GSUs. Usa esta métrica para conocer tu cuota máxima de rendimiento aprovisionado en GSUs.
`/tokens`	Tokens	Distribución del recuento de tokens de entrada y salida.
`/token_count`	Número de tokens	Recuento acumulado de tokens de entrada y salida.
`/consumed_token_throughput`	Rendimiento de tokens	Uso del rendimiento, que tiene en cuenta la tasa de consumo de tokens e incorpora la conciliación de cuotas. Consulta Comprobación de la cuota de rendimiento aprovisionado. Usa esta métrica para saber cómo se ha usado tu cuota de rendimiento aprovisionado.
`/dedicated_token_limit`	Límite (tokens por segundo)	Límite dedicado en tokens por segundo. Usa esta métrica para conocer la cuota máxima de rendimiento aprovisionado de los modelos basados en tokens.
`/characters`	Caracteres	Distribución del número de caracteres de entrada y salida.
`/character_count`	Número de caracteres	Número acumulado de caracteres de entrada y salida.
`/consumed_throughput`	Rendimiento de caracteres	Uso del rendimiento, que tiene en cuenta la tasa de consumo en caracteres e incorpora la conciliación de cuotas Comprobación de cuotas de rendimiento aprovisionado. Usa esta métrica para saber cómo se ha usado tu cuota de throughput aprovisionado. En los modelos basados en tokens, esta métrica equivale al rendimiento consumido en tokens multiplicado por 4.
`/dedicated_character_limit`	Límite (caracteres por segundo)	Límite específico de caracteres por segundo. Usa esta métrica para conocer la cuota máxima de rendimiento aprovisionado de los modelos basados en caracteres.
`/model_invocation_count`	Recuento de invocaciones del modelo	Número de invocaciones de modelos (solicitudes de predicción).
`/model_invocation_latencies`	Latencias de invocación de modelos	Latencias de invocación del modelo (latencias de predicción).
`/first_token_latencies`	Latencias del primer token	Duración desde que se recibe la solicitud hasta que se devuelve el primer token.

Los modelos de Anthropic también tienen un filtro para el rendimiento aprovisionado, pero solo para tokens y token_count.

Paneles de control

Los paneles de control de monitorización predeterminados de Provisioned Throughput proporcionan métricas que te permiten comprender mejor tu uso y la utilización de Provisioned Throughput. Para acceder a los paneles, siga estos pasos:

En la Google Cloud consola, ve a la página Rendimiento aprovisionado.
Ir a Capacidad de procesamiento reservada
Para ver la utilización del rendimiento aprovisionado de cada modelo en tus pedidos, selecciona la pestaña Resumen de utilización.

En la tabla Utilización del throughput aprovisionado por modelo, puede ver lo siguiente en el periodo seleccionado:
- Número total de GSUs que tenías.
- Uso del rendimiento máximo en términos de GSUs.
- El uso medio de GSU.
- Número de veces que has alcanzado el límite de throughput aprovisionado.
Seleccione un modelo de la tabla Utilización del throughput aprovisionado por modelo para ver más métricas específicas del modelo seleccionado.

Limitaciones del panel de control

Es posible que el panel de control muestre resultados inesperados, sobre todo en el caso de tráfico fluctuante que sea irregular o poco frecuente (por ejemplo, menos de una consulta por segundo). Estos son algunos de los motivos:

Si los intervalos de tiempo son superiores a 12 horas, la representación del periodo de aplicación de la cuota puede ser menos precisa. Las métricas de rendimiento y sus derivadas, como la utilización, muestran las medias de los periodos de alineación que se basan en el intervalo de tiempo seleccionado. Cuando se amplía el intervalo de tiempo, también se amplía cada periodo de alineación. El periodo de alineación se amplía en el cálculo del uso medio. Como el cumplimiento de la cuota se calcula a nivel de subminuto, si se establece un intervalo de tiempo de 12 horas o menos, se obtienen datos a nivel de minuto que son más comparables al periodo de cumplimiento de la cuota real. Para obtener más información sobre los periodos de alineación, consulta Alineación: regularización en serie. Para obtener más información sobre los intervalos de tiempo, consulta Regularizar intervalos de tiempo.
Si se envían varias solicitudes al mismo tiempo, las agregaciones de monitorización pueden afectar a tu capacidad para filtrar solicitudes específicas.
El tráfico de Provisioned Throughput se limita cuando se ha hecho una solicitud, pero se registran las métricas de uso después de que se haya conciliado la cuota.
Los periodos de cumplimiento de la cuota de rendimiento aprovisionado son independientes y es posible que no coincidan con los periodos de agregación de la monitorización ni con los periodos de solicitud o respuesta.
Si no se ha producido ningún error, es posible que veas un mensaje de error en el gráfico de tasa de errores. Por ejemplo, No se han podido solicitar los datos. No se han encontrado uno o varios recursos.

Monitorizar modelos de Genmedia

La monitorización del rendimiento aprovisionado no está disponible en los modelos Veo 3 e Imagen.

Alertas

Una vez que hayas habilitado las alertas, configura alertas predeterminadas para gestionar tu uso del tráfico.

Habilitar alertas

Para habilitar las alertas en el panel de control, siga estos pasos:

En la Google Cloud consola, ve a la página Rendimiento aprovisionado.
Ir a Capacidad de procesamiento reservada
Para ver la utilización del rendimiento aprovisionado de cada modelo en tus pedidos, selecciona la pestaña Resumen de utilización.
Selecciona Alertas recomendadas. Se mostrarán las siguientes alertas:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Consulta las alertas que te ayudan a gestionar el tráfico.

Ver más detalles de la alerta

Para ver más información sobre las alertas, sigue estos pasos:

Ve a la página Integraciones.
Ir a Integraciones
Introduce vertex en el campo Filtro y pulsa Intro. Google Vertex AI.
Para ver más información, haz clic en Ver detalles. Se muestra el panel Detalles de Google Vertex AI.
Selecciona la pestaña Alertas y, a continuación, una plantilla de Política de alertas.

Siguientes pasos

Soluciona el problema Error code 429.