Compter les jetons pour les modèles Claude

Le point de terminaison count-tokens vous permet de déterminer le nombre de jetons dans un message avant de l'envoyer à Claude, ce qui vous aide à prendre des décisions éclairées sur vos requêtes et votre utilisation.

L'utilisation du point de terminaison count-tokens est gratuite.

Modèles Claude compatibles

Les modèles suivants sont compatibles avec les jetons de comptage:

  • Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
  • Claude 3.5 Haiku: claude-3-5-haiku@20241022.
  • Claude 3 Opus: claude-3-opus@20240229.
  • Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
  • Claude 3 Haiku: claude-3-haiku@20240307.

Régions où le service est disponible

Les régions suivantes sont compatibles avec les jetons de nombre:

  • us-east5
  • europe-west1
  • asia-southeast1
  • us-central1
  • europe-west4

Compter les jetons dans les messages de base

Pour compter les jetons, envoyez une requête rawPredict au point de terminaison count-tokens. Le corps de la requête doit contenir l'ID du modèle pour lequel vous souhaitez comptabiliser les jetons.

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION: région compatible.
  • MODEL: modèle pour lequel compter les jetons.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles Claude fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • CONTENT : contenu, tel que le texte, du message user ou assistant.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

Corps JSON de la requête :

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Pour savoir comment compter les jetons dans les messages contenant des outils, des images et des PDF, consultez la documentation d'Anthropic.

Quotas

Par défaut, le quota du point de terminaison count-tokens est de 2 000 requêtes par minute.