Cette page explique comment contrôler les dépassements ou contourner le débit provisionné, et comment surveiller l'utilisation du débit provisionné.
Contrôler les dépassements ou contourner le débit provisionné
Utilisez l'API REST pour contrôler les dépassements lorsque vous dépassez le débit souscrit ou pour contourner le débit provisionné pour des requêtes spécifiques.
Lisez chacune des options pour déterminer ce que vous devez faire pour répondre à votre cas d'utilisation.
Comportement par défaut
Si vous dépassez le débit acheté, les dépassements sont facturés à la demande, au tarif de paiement à l'usage. Une fois que votre commande de débit provisionné est active, le comportement par défaut est automatiquement appliqué. Vous n'avez pas besoin de modifier votre code pour commencer à utiliser votre commande.
Cet exemple curl illustre le comportement par défaut.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Utiliser uniquement le débit provisionné
Si vous gérez les coûts de manière à éviter la facturation à la demande, n'utilisez que le débit provisionné. Les requêtes qui dépassent le montant de la commande de débit provisionné renverront une erreur 429.
Cet exemple curl montre comment utiliser l'API REST pour utiliser uniquement votre abonnement de débit provisionné, auquel cas les dépassements renverront une erreur 429.
Définissez l'en-tête X-Vertex-AI-LLM-Request-Type
sur dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Utiliser uniquement le paiement à l'usage
On parle également d'utilisation à la demande. Les requêtes contournent la commande de débit provisionné et sont envoyées directement au paiement à l'usage. Cela peut être utile pour les tests ou les applications en cours de développement.
Cet exemple curl montre comment utiliser l'API REST pour contourner le débit provisionné et n'utiliser que le paiement à l'usage.
définir l'en-tête X-Vertex-AI-LLM-Request-Type
sur shared
;
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Surveiller le débit provisionné
Vous pouvez surveiller l'utilisation de votre débit provisionné à l'aide des métriques de surveillance et par requête.
En-têtes de réponse
Si une requête a été traitée à l'aide du débit provisionné, l'en-tête HTTP suivant est présent dans la réponse. Cette ligne de code ne s'applique qu'à l'appel d'API generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Métriques
Le débit provisionné peut être surveillé à l'aide d'un ensemble de métriques mesurées sur le type de ressource aiplatform.googleapis.com/PublisherModel
.
Chaque métrique peut être filtrée selon les dimensions suivantes:
type
:input
,output
request_type
:dedicated
,shared
Pour filtrer une métrique afin d'afficher l'utilisation du débit provisionné, utilisez le type de requête dedicated
. Le préfixe de chemin d'accès d'une métrique est aiplatform.googleapis.com/publisher/online_serving
.
Par exemple, le chemin d'accès complet de la métrique /consumed_throughput
est aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Les métriques Cloud Monitoring suivantes sont disponibles sur la ressource aiplatform.googleapis.com/PublisherModel
dans les modèles Gemini et comportent un filtre pour l'utilisation du débit provisionné:
Métrique | Nom à afficher | Description |
---|---|---|
/characters |
Caractères | Distribution du nombre de caractères d'entrée et de sortie |
/character_count |
Nombre de caractères | Nombre cumulé de caractères d'entrée et de sortie |
/consumed_throughput |
Débit en caractères | Débit consommé (tenez compte du taux d'utilisation) en caractères |
/model_invocation_count |
Nombre d'appels de modèle | Nombre d'appels du modèle (requêtes de prédiction) |
/model_invocation_latencies |
Latences d'appel du modèle | Latences d'appel du modèle (latences de prédiction) |
/first_token_latencies |
Latences du premier jeton | Durée entre la réception de la requête et le premier jeton renvoyé |
/tokens |
Jetons | Distribution du nombre de jetons d'entrée et de sortie |
/token_count |
Nombre de jetons | Nombre cumulé de jetons d'entrée et de sortie |
Les modèles Anthropic disposent également d'un filtre pour le débit provisionné, mais uniquement pour tokens/token_count
.
Étape suivante
- Résolvez le problème lié au code d'erreur
429
.