Cuenta tokens para modelos de Claude

El extremo count-tokens te permite determinar la cantidad de tokens en un mensaje antes de enviarlo a Claude, lo que te ayuda a tomar decisiones fundamentadas sobre tus instrucciones y tu uso.

No se aplican cargos por usar el extremo count-tokens.

Modelos de Claude compatibles

Los siguientes modelos admiten tokens de recuento:

  • Claude 3.5 Sonnet v2: claude-3-5-sonnet-v2@20241022.
  • Claude 3.5 Haiku: claude-3-5-haiku@20241022.
  • Claude 3 Opus: claude-3-opus@20240229.
  • Claude 3.5 Sonnet: claude-3-5-sonnet@20240620.
  • Claude 3 Haiku: claude-3-haiku@20240307.

Regiones admitidas

Las siguientes regiones admiten tokens de recuento:

  • us-east5
  • europe-west1
  • asia-southeast1
  • us-central1
  • europe-west4

Cuenta tokens en mensajes básicos

Para contar tokens, envía una solicitud rawPredict al extremo count-tokens. El cuerpo de la solicitud debe contener el ID del modelo para el que deseas contar los tokens.

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región compatible.
  • MODEL: Es el modelo en el que se deben contar los tokens.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • CONTENT: el contenido, como texto, del mensaje user o assistant.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict

Cuerpo JSON de la solicitud:

{
  "model": "claude-3-haiku@20240307",
  "messages": [
    {
      "role": "user",
      "content":"how many tokens are in this request?"
    }
  ],
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/count-tokens:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Para obtener información sobre cómo contar tokens en mensajes con herramientas, imágenes y archivos PDF, consulta la documentación de Anthropic.

Cuotas

De forma predeterminada, la cuota del extremo count-tokens es de 2,000 solicitudes por minuto.