Se usó la API de Cloud Translation para traducir esta página.

Cuenta tokens para modelos de Claude

El extremo count-tokens te permite determinar la cantidad de tokens en un mensaje antes de enviarlo a Claude, lo que te ayuda a tomar decisiones fundamentadas sobre tus instrucciones y tu uso.

No se aplican cargos por usar el extremo count-tokens.

Modelos de Claude compatibles

Los siguientes modelos admiten tokens de recuento:

Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
Claude 3.5 Haiku: claude-3-5-haiku@20241022.
Claude 3 Opus: claude-3-opus@20240229.
Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
Claude 3 Haiku: claude-3-haiku@20240307.

Regiones admitidas

Las siguientes regiones admiten tokens de recuento:

us-east5
europe-west1
asia-southeast1
us-central1
europe-west4

Cuenta tokens en mensajes básicos

Para contar tokens, envía una solicitud rawPredict al extremo count-tokens. El cuerpo de la solicitud debe contener el ID del modelo para el que deseas contar los tokens.

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: Es una región compatible.
MODEL: Es el modelo en el que se deben contar los tokens.
ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
CONTENT: el contenido, como texto, del mensaje user o assistant.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

Cuerpo JSON de la solicitud:

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Para enviar tu solicitud, elige una de estas opciones:

curlPowerShell

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

{ "input_tokens": 14 }

Para obtener información sobre cómo contar tokens en mensajes con herramientas, imágenes y archivos PDF, consulta la documentación de Anthropic.

Cuotas

De forma predeterminada, la cuota del extremo count-tokens es de 2,000 solicitudes por minuto.