Contare i token per i modelli Claude

L'endpoint count-tokens ti consente di determinare il numero di token in un messaggio prima di inviarlo a Claude, aiutandoti a prendere decisioni consapevoli sui prompt e sull'utilizzo.

Non è previsto alcun costo per l'utilizzo dell'endpoint count-tokens.

Modelli Claude supportati

I seguenti modelli supportano i token di conteggio:

  • Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
  • Claude 3.5 Haiku: claude-3-5-haiku@20241022.
  • Claude 3 Opus: claude-3-opus@20240229.
  • Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
  • Claude 3 Haiku: claude-3-haiku@20240307.

Aree geografiche supportate

Le seguenti regioni supportano i token di conteggio:

  • us-east5
  • europe-west1
  • asia-southeast1
  • us-central1
  • europe-west4

Contare i token nei messaggi di base

Per conteggiare i token, invia una richiesta rawPredict all'endpoint count-tokens. Il corpo della richiesta deve contenere l'ID del modello per il quale vuoi conteggiare i token.

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LOCATION: una regione supportata.
  • MODEL: il modello in base al quale conteggiare i token.
  • ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli Claude funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi utilizzarlo per limitare parte della risposta del modello.
  • CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

Corpo JSON della richiesta:

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Per informazioni su come conteggiare i token nei messaggi con strumenti, immagini e PDF, consulta la documentazione di Anthropoic.

Quote

Per impostazione predefinita, la quota per l'endpoint count-tokens è di 2000 richieste al minuto.