Usa la capacidad de procesamiento aprovisionada

En esta página, se explica cómo controlar los excedentes o omitir la capacidad de procesamiento aprovisionada y cómo supervisar su uso.

Controla los excedentes o omite la capacidad de procesamiento aprovisionada

Usa la API de REST para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.

Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.

Comportamiento predeterminado

Si superas el importe de capacidad de procesamiento que compraste, los excedentes se facturan según demanda con la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminado se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.

En este ejemplo de curl, se muestra el comportamiento predeterminado.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usa solo la capacidad de procesamiento aprovisionada

Si administras los costos evitando los cargos bajo demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de capacidad de procesamiento aprovisionada muestran un error 429.

En este ejemplo de curl, se muestra cómo puedes usar la API de REST para usar solo tu suscripción a la capacidad de procesamiento aprovisionada, con los excedentes que muestran un error 429.

Configurar el encabezado X-Vertex-AI-LLM-Request-Type como dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usar solo el pago por uso

Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de rendimiento reservado y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.

En este ejemplo de curl, se muestra cómo puedes usar la API de REST para omitir la capacidad de procesamiento aprovisionada y usar solo el pago por uso.

Configurar el encabezado X-Vertex-AI-LLM-Request-Type como shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Supervisa la capacidad de procesamiento aprovisionada

Puedes supervisar el uso de la capacidad de procesamiento aprovisionada a través de las métricas de supervisión y por solicitud.

Encabezados de respuesta

Si se procesó una solicitud con la capacidad de procesamiento aprovisionada, el siguiente encabezado HTTP está presente en la respuesta. Esta línea de código solo se aplica a la llamada a la API de generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Métricas

La capacidad de procesamiento aprovisionada se puede supervisar con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel. Cada métrica se puede filtrar según las siguientes dimensiones:

  • type: input, output
  • request_type: dedicated, shared

Para filtrar una métrica y ver el uso de la capacidad de procesamiento aprovisionada, usa el tipo de solicitud dedicated. El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving.

Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel en los modelos de Gemini y tienen un filtro para el uso de la capacidad de procesamiento aprovisionada:

Métrica Nombre visible Descripción
/characters Caracteres Distribución del recuento de caracteres de entrada y salida.
/character_count Recuento de caracteres Es el recuento acumulado de caracteres de entrada y salida.
/consumed_throughput Capacidad de procesamiento de caracteres Tasa de capacidad de procesamiento consumida (considera la tasa de consumo) en caracteres.
/model_invocation_count Recuento de invocaciones de modelos Cantidad de invocaciones de modelos (solicitudes de predicción).
/model_invocation_latencies Latencias de invocación de modelos Latencias de invocación del modelo (latencia de predicción)
/first_token_latencies Latencias del primer token Es la duración desde que se recibe la solicitud hasta que se muestra el primer token.
/tokens Tokens Distribución del recuento de tokens de entrada y salida.
/token_count Recuento de tokens Cantidad acumulada de tokens de entrada y salida.

Los modelos antropicos también tienen un filtro para la capacidad de procesamiento aprovisionada, pero solo para tokens/token_count.

¿Qué sigue?