En esta página, se explica cómo controlar los excedentes o omitir la capacidad de procesamiento aprovisionada y cómo supervisar su uso.
Controla los excedentes o omite la capacidad de procesamiento aprovisionada
Usa la API de REST para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.
Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.
Comportamiento predeterminado
Si superas el importe de capacidad de procesamiento que compraste, los excedentes se facturan según demanda con la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.
En este ejemplo de curl, se muestra el comportamiento predeterminado.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usa solo la capacidad de procesamiento aprovisionada
Si administras los costos evitando los cargos bajo demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de capacidad de procesamiento aprovisionada muestran un error 429.
En este ejemplo de curl, se muestra cómo puedes usar la API de REST para usar solo tu suscripción a la capacidad de procesamiento aprovisionada, con los excedentes que muestran un error 429.
Configurar el encabezado X-Vertex-AI-LLM-Request-Type
como dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usar solo el pago por uso
Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de rendimiento reservado y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.
En este ejemplo de curl, se muestra cómo puedes usar la API de REST para omitir la capacidad de procesamiento aprovisionada y usar solo el pago por uso.
Configurar el encabezado X-Vertex-AI-LLM-Request-Type
como shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Supervisa la capacidad de procesamiento aprovisionada
Puedes supervisar el uso de la capacidad de procesamiento aprovisionada a través de las métricas de supervisión y por solicitud.
Encabezados de respuesta
Si se procesó una solicitud con la capacidad de procesamiento aprovisionada, el siguiente encabezado HTTP está presente en la respuesta. Esta línea de código solo se aplica a la llamada a la API de generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Métricas
La capacidad de procesamiento aprovisionada se puede supervisar con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel
.
Cada métrica se puede filtrar según las siguientes dimensiones:
type
:input
,output
request_type
:dedicated
,shared
Para filtrar una métrica y ver el uso de la capacidad de procesamiento aprovisionada, usa el tipo de solicitud dedicated
. El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving
.
Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput
es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel
en los modelos de Gemini y tienen un filtro para el uso de la capacidad de procesamiento aprovisionada:
Métrica | Nombre visible | Descripción |
---|---|---|
/characters |
Caracteres | Distribución del recuento de caracteres de entrada y salida. |
/character_count |
Recuento de caracteres | Es el recuento acumulado de caracteres de entrada y salida. |
/consumed_throughput |
Capacidad de procesamiento de caracteres | Tasa de capacidad de procesamiento consumida (considera la tasa de consumo) en caracteres. |
/model_invocation_count |
Recuento de invocaciones de modelos | Cantidad de invocaciones de modelos (solicitudes de predicción). |
/model_invocation_latencies |
Latencias de invocación de modelos | Latencias de invocación del modelo (latencia de predicción) |
/first_token_latencies |
Latencias del primer token | Es la duración desde que se recibe la solicitud hasta que se muestra el primer token. |
/tokens |
Tokens | Distribución del recuento de tokens de entrada y salida. |
/token_count |
Recuento de tokens | Cantidad acumulada de tokens de entrada y salida. |
Los modelos antropicos también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count
.
¿Qué sigue?
- Soluciona el problema del código de error
429
.