Esta página foi traduzida pela API Cloud Translation.

Contar tokens para modelos Claude

O endpoint count-tokens permite determinar o número de tokens em uma mensagem antes de enviá-la ao Claude, ajudando você a tomar decisões informadas sobre seus comandos e uso.

Não há custo para usar o endpoint count-tokens.

Modelos Claude com suporte

Os modelos a seguir são compatíveis com tokens de contagem:

Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
Claude 3.5 Haiku: claude-3-5-haiku@20241022.
Claude 3 Opus: claude-3-opus@20240229.
Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
Claude 3 Haiku: claude-3-haiku@20240307.

Regiões compatíveis

As seguintes regiões oferecem suporte a tokens de contagem:

us-east5
europe-west1
asia-southeast1
us-central1
europe-west4

Contar tokens em mensagens básicas

Para contar tokens, envie uma solicitação rawPredict para o endpoint count-tokens. O corpo da solicitação precisa conter o ID do modelo que você quer usar para contar os tokens.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região com suporte.
MODEL: o modelo para contar tokens.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos de Claude funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

Corpo JSON da solicitação:

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

{ "input_tokens": 14 }

Para informações sobre como contar tokens em mensagens com ferramentas, imagens e PDFs, consulte a documentação do Anthropic.

Cotas

Por padrão, a cota para o endpoint count-tokens é de 2.000 solicitações por minuto.