Utiliser le débit provisionné

Cette page explique comment contrôler les dépassements ou contourner le débit provisionné, et comment surveiller l'utilisation du débit provisionné.

Contrôler les dépassements ou contourner le débit provisionné

Utilisez l'API REST pour contrôler les dépassements lorsque vous dépassez le débit souscrit ou pour contourner le débit provisionné pour des requêtes spécifiques.

Lisez chacune des options pour déterminer ce que vous devez faire pour répondre à votre cas d'utilisation.

Comportement par défaut

Si vous dépassez le débit acheté, les dépassements sont facturés à la demande, au tarif de paiement à l'usage. Une fois que votre commande de débit provisionné est active, le comportement par défaut est automatiquement appliqué. Vous n'avez pas besoin de modifier votre code pour commencer à utiliser votre commande.

Cet exemple curl illustre le comportement par défaut.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utiliser uniquement le débit provisionné

Si vous gérez les coûts de manière à éviter la facturation à la demande, n'utilisez que le débit provisionné. Les requêtes qui dépassent le montant de la commande de débit provisionné renverront une erreur 429.

Cet exemple curl montre comment utiliser l'API REST pour utiliser uniquement votre abonnement de débit provisionné, auquel cas les dépassements renverront une erreur 429.

Définissez l'en-tête X-Vertex-AI-LLM-Request-Type sur dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utiliser uniquement le paiement à l'usage

On parle également d'utilisation à la demande. Les requêtes contournent la commande de débit provisionné et sont envoyées directement au paiement à l'usage. Cela peut être utile pour les tests ou les applications en cours de développement.

Cet exemple curl montre comment utiliser l'API REST pour contourner le débit provisionné et n'utiliser que le paiement à l'usage.

définir l'en-tête X-Vertex-AI-LLM-Request-Type sur shared ;

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Surveiller le débit provisionné

Vous pouvez surveiller l'utilisation de votre débit provisionné à l'aide des métriques de surveillance et par requête.

En-têtes de réponse

Si une requête a été traitée à l'aide du débit provisionné, l'en-tête HTTP suivant est présent dans la réponse. Cette ligne de code ne s'applique qu'à l'appel d'API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Métriques

Le débit provisionné peut être surveillé à l'aide d'un ensemble de métriques mesurées sur le type de ressource aiplatform.googleapis.com/PublisherModel. Chaque métrique peut être filtrée selon les dimensions suivantes:

  • type : input, output
  • request_type : dedicated, shared

Pour filtrer une métrique afin d'afficher l'utilisation du débit provisionné, utilisez le type de requête dedicated. Le préfixe de chemin d'accès d'une métrique est aiplatform.googleapis.com/publisher/online_serving.

Par exemple, le chemin d'accès complet de la métrique /consumed_throughput est aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Les métriques Cloud Monitoring suivantes sont disponibles sur la ressource aiplatform.googleapis.com/PublisherModel dans les modèles Gemini et comportent un filtre pour l'utilisation du débit provisionné:

Métrique Nom à afficher Description
/characters Caractères Distribution du nombre de caractères d'entrée et de sortie
/character_count Nombre de caractères Nombre cumulé de caractères d'entrée et de sortie
/consumed_throughput Débit en caractères Débit consommé (tenez compte du taux d'utilisation) en caractères
/model_invocation_count Nombre d'appels de modèle Nombre d'appels du modèle (requêtes de prédiction)
/model_invocation_latencies Latences d'appel du modèle Latences d'appel du modèle (latences de prédiction)
/first_token_latencies Latences du premier jeton Durée entre la réception de la requête et le premier jeton renvoyé
/tokens Jetons Distribution du nombre de jetons d'entrée et de sortie
/token_count Nombre de jetons Nombre cumulé de jetons d'entrée et de sortie

Les modèles Anthropic disposent également d'un filtre pour le débit provisionné, mais uniquement pour tokens/token_count.

Étape suivante