Le point de terminaison count-tokens
vous permet de déterminer le nombre de jetons dans un message avant de l'envoyer à Claude, ce qui vous aide à prendre des décisions éclairées sur vos requêtes et votre utilisation.
L'utilisation du point de terminaison count-tokens
est gratuite.
Modèles Claude compatibles
Les modèles suivants sont compatibles avec les jetons de comptage:
- Claude 3.5 Sonnet v2:
claude-3-5-sonnet-v2@20241022
. - Claude 3.5 Haiku:
claude-3-5-haiku@20241022
. - Claude 3 Opus:
claude-3-opus@20240229
. - Claude 3.5 Sonnet:
claude-3-5-sonnet@20240620
. - Claude 3 Haiku:
claude-3-haiku@20240307
.
Régions où le service est disponible
Les régions suivantes sont compatibles avec les jetons de nombre:
us-east5
europe-west1
asia-southeast1
us-central1
europe-west4
Compter les jetons dans les messages de base
Pour compter les jetons, envoyez une requête rawPredict
au point de terminaison count-tokens
. Le corps de la requête doit contenir l'ID du modèle pour lequel vous souhaitez comptabiliser les jetons.
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION: région compatible.
- MODEL: modèle pour lequel compter les jetons.
- ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles Claude fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict
Corps JSON de la requête :
{ "model": "claude-3-haiku@20240307", "messages": [ { "role": "user", "content":"how many tokens are in this request?" } ], }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Pour savoir comment compter les jetons dans les messages contenant des outils, des images et des PDF, consultez la documentation d'Anthropic.
Quotas
Par défaut, le quota du point de terminaison count-tokens
est de 2 000 requêtes par minute.