Tokens für Claude-Modelle zählen

Mit dem count-tokens-Endpunkt können Sie die Anzahl der Tokens in einer Nachricht ermitteln, bevor Sie sie an Claude senden. So können Sie fundierte Entscheidungen über Ihre Prompts und die Nutzung treffen.

Für die Nutzung des count-tokens-Endpunkts fallen keine Gebühren an.

Unterstützte Claude-Modelle

Die folgenden Modelle unterstützen Zählungstokens:

  • Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
  • Claude 3.5 Haiku: claude-3-5-haiku@20241022.
  • Claude 3 Opus: claude-3-opus@20240229.
  • Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
  • Claude 3 Haiku: claude-3-haiku@20240307.

Unterstützte Regionen

Die folgenden Regionen unterstützen Zählungstokens:

  • us-east5
  • europe-west1
  • asia-southeast1
  • us-central1
  • europe-west4

Tokens in einfachen Nachrichten zählen

Wenn du Tokens zählen möchtest, sende eine rawPredict-Anfrage an den count-tokens-Endpunkt. Der Textkörper der Anfrage muss die Modell-ID des Modells enthalten, für das Tokens gezählt werden sollen.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Eine unterstützte Region.
  • MODEL: Das Modell, für das Tokens gezählt werden sollen.
  • ROLE: Die einer Nachricht zugeordnete Rolle. Sie können user oder assistant angeben. Die erste Nachricht muss die Rolle user verwenden. Claude-Modelle arbeiten mit abwechselnden user- und assistant-Runden. Wenn die endgültige Nachricht die Rolle assistant verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. So können Sie einen Teil der Antwort des Modells einschränken.
  • CONTENT: Der Inhalt, z. B. Text der user- oder assistant-Nachricht.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

JSON-Text der Anfrage:

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Informationen zum Zählen von Tokens in Nachrichten mit Tools, Bildern und PDFs finden Sie in der Anthropic-Dokumentation.

Kontingente

Standardmäßig beträgt das Kontingent für den Endpunkt count-tokens 2.000 Anfragen pro Minute.