Usa los modelos Claude de Anthropic

Los modelos Anthropic Claude en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Claude en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos Anthropic Claude usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas de Claude para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de Claude a medida que los usas (pago por uso) o pagas una tarifa fija cuando usas la capacidad de procesamiento aprovisionada. Para conocer los precios del pago por uso, consulta los modelos de Claude de Anthropic en la página de precios de Vertex AI.

Modelos de Claude disponibles

Los siguientes modelos están disponibles de Anthropic para usarlos en Vertex AI. Para acceder a un modelo de Claude, ve a su tarjeta de modelo de Model Garden.

Claude 3.5 Sonnet v2

Claude 3.5 Sonnet v2 es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet v2 ofrece estos avances al mismo precio y velocidad que Claude 3.5 Sonnet.

El modelo actualizado de Claude 3.5 Sonnet puede interactuar con herramientas que pueden manipular un entorno de escritorio de computadora. Para obtener más información, consulta la documentación de Anthropic.

Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:

  • Tareas y uso de herramientas de agentes: Claude 3.5 Sonnet ofrece una supervisión de instrucciones superior, selección de herramientas, corrección de errores y razonamiento avanzado para flujos de trabajo de agentes que requieren el uso de herramientas.
  • Programación: Para las tareas de desarrollo de software, que van desde migraciones de código, correcciones y traducciones, Claude 3.5 Sonnet ofrece un rendimiento sólido en la planificación y resolución de tareas de programación complejas.
  • Preguntas y respuestas sobre documentos: Claude 3.5 Sonnet combina una sólida comprensión del contexto, un razonamiento avanzado y una síntesis para brindar respuestas precisas y similares a las de las personas.
  • Extracción de datos visuales: Con las habilidades de visión líderes de Claude 3.5 Sonnet, este modelo puede extraer datos sin procesar de elementos visuales, como gráficos o diagramas, como parte de los flujos de trabajo de IA.
  • Generación y análisis de contenido: Claude 3.5 Sonnet puede comprender los matices y el tono del contenido, generar contenido más atractivo y analizarlo en un nivel más profundo.

Ir a la tarjeta de modelo de Claude 3.5 Sonnet v2

Claude 3.5 Haiku

Claude 3.5 Haiku, la nueva generación del modelo más rápido y recomendable de Anthropic, es ideal para casos de uso en los que la velocidad y la accesibilidad son importantes. Mejora a su predecesor en todos los conjuntos de habilidades. Claude 3.5 Haiku está optimizado para los siguientes casos de uso:

  • Finalización de código: Con su tiempo de respuesta rápido y su comprensión de los patrones de programación, Claude 3.5 Haiku se destaca por proporcionar sugerencias y finalizaciones de código rápidas y precisas en flujos de trabajo de desarrollo en tiempo real.
  • Bots de chat interactivos: El razonamiento mejorado y las capacidades de conversación natural de Claude 3.5 Haiku lo hacen ideal para crear chatbots responsivos y atractivos que puedan manejar grandes volúmenes de interacciones de los usuarios de manera eficiente.
  • Extracción y etiquetado de datos: Aprovechando sus habilidades de análisis mejoradas, Claude 3.5 Haiku procesa y clasifica los datos de manera eficiente, lo que lo hace útil para la extracción rápida de datos y las tareas de etiquetado automatizado.
  • Moderación de contenido en tiempo real: Con habilidades de razonamiento sólidas y una comprensión del contenido, Claude 3.5 Haiku proporciona una moderación de contenido rápida y confiable para las plataformas que requieren tiempos de respuesta inmediatos a gran escala.

Ir a la tarjeta de modelo de Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Opus de Anthropic es un modelo de IA potente con un rendimiento de primer nivel en tareas muy complejas. Puede navegar por instrucciones abiertas y situaciones nunca vistas con una fluidez notable y una comprensión similar a la humana. Claude 3 Opus está optimizado para los siguientes casos de uso:

  • Automatización de tareas, como programación y planificación interactivas, o ejecución de acciones complejas en APIs y bases de datos.

  • Tareas de investigación y desarrollo, como la revisión de la investigación, el intercambio de ideas y la generación de hipótesis, y las pruebas de productos.

  • Tareas de estrategia, como el análisis avanzado de gráficos, finanzas y tendencias de mercado, y previsión.

  • Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto. Además, análisis de gráficos, diagramas técnicos, informes y otro contenido visual.

Ir a la tarjeta de modelo Claude 3 Opus

Claude 3 Haiku

Claude 3 Haiku de Anthropic es el modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas.

  • Interacciones y traducciones en vivo con los clientes

  • Moderación de contenido para detectar comportamientos sospechosos o solicitudes de los clientes.

  • Tareas de ahorro de costos, como la administración de inventario y la extracción de conocimiento a partir de datos no estructurados.

  • Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto, análisis de gráficos, diagramas técnicos, informes y otro contenido visual.

Ir a la tarjeta de modelo Claude 3 Haiku

Claude 3.5 Sonnet

Claude 3.5 Sonnet de Anthropic supera el rendimiento de Claude 3 Opus en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo de Claude 3 Sonnet de nivel intermedio de Anthropic. Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:

  • Programación, como escribir, editar y ejecutar código con capacidades de razonamiento y solución de problemas sofisticados.

  • Manejo de consultas complejas de la asistencia al cliente mediante la comprensión del contexto del usuario y la organización de flujos de trabajo de varios pasos.

  • Análisis y ciencia de datos mediante la navegación de datos no estructurados y el uso de varias herramientas para generar estadísticas.

  • Procesamiento visual, como interpretar gráficos y diagramas que requieren comprensión visual.

  • Escribir contenido con un tono más natural y humano.

Ir a la tarjeta de modelo de Claude 3.5 Sonnet

Usa modelos de Claude

Puedes usar el SDK de Anthropic o comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:

  • Para Claude 3.5 Sonnet v2, usa claude-3-5-sonnet-v2@20241022.
  • Para Claude 3.5 Haiku, usa claude-3-5-haiku@20241022.
  • Para Claude 3 Opus, usa claude-3-opus@20240229.
  • Para Claude 3.5 Sonnet, usa claude-3-5-sonnet@20240620.
  • Para Claude 3 Haiku, usa claude-3-haiku@20240307.

Las versiones del modelo Anthropic Claude deben usarse con un sufijo que comience con un símbolo @ (como claude-3-5-sonnet-v2@20241022 o claude-3-5-haiku@20241022) para garantizar un comportamiento coherente.

Antes de comenzar

Para usar los modelos de Anthropic Claude con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

Asegúrate de tener los permisos necesarios para habilitar y usar modelos de socios. Para obtener más información, consulta Otorga los permisos necesarios.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en Habilitar:

Usa el SDK de Anthropic

Puedes realizar solicitudes a la API para los modelos Anthropic Claude con el SDK de Anthropic Claude. Para obtener más información, consulta lo siguiente:

Realiza una llamada de transmisión a un modelo Claude con el SDK de Vertex de Anthropic.

En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada de transmisión a un modelo Claude.

SDK de Vertex AI para Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación del SDK de Vertex AI de referencia de la API de Vertex para Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Realiza una llamada unaria a un modelo de Claude con el SDK de Vertex de Anthropic.

En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada unaria a un modelo Claude.

SDK de Vertex AI para Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación del SDK de Vertex AI de referencia de la API de Vertex para Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

Usa un comando curl

Puedes usar un comando curl para realizar una solicitud al extremo de Vertex AI. El comando curl especifica qué modelo Claude compatible deseas usar.

Las versiones del modelo Anthropic Claude deben usarse con un sufijo que comience con un símbolo @ (como claude-3-5-sonnet-v2@20241022 o claude-3-5-haiku@20241022) para garantizar un comportamiento coherente.

En el siguiente tema, se muestra cómo crear un comando curl y se incluye un comando curl de muestra.

REST

Para probar un mensaje de texto con la API de Vertex AI, envía una solicitud POST al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Claude Anthropic.
  • MODEL: El nombre del modelo que deseas usar.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
  • CONTENT: el contenido, como texto, del mensaje user o assistant.
  • MAX_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

  • TOP_P (opcional): Top-P cambia la manera en la que el modelo selecciona tokens para la salida. Los tokens se seleccionan desde el más alto (consulta K superior) hasta el menos probable, hasta que la suma de sus probabilidades sea igual al valor de P superior. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.3, 0.2 y 0.1, y el valor P superior es 0.5, el modelo elegirá A o B como el siguiente token mediante la temperatura y excluirá a C como candidato.

    Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.

  • TOP_K (opcional): Top-K cambia la manera en la que el modelo selecciona los tokens para el resultado. K superior a 1 significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación voraz), mientras que el K superior a 3 significa que el siguiente token se selecciona de los tres tokens más probables mediante la temperatura.

    Para cada paso de selección de tokens, se muestran los tokens de K superior con las probabilidades más altas. Luego, los tokens se filtran según el superior con el token final seleccionado mediante el muestreo de temperatura.

    Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.

HTTP method and URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Ejemplo del comando curl

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Uso de herramientas (llamadas a función)

Los modelos de Claude de Anthropic admiten herramientas y llamadas a función para mejorar las funciones de un modelo. Para obtener más información, consulta la descripción general del uso de herramientas en la documentación de Anthropic.

En los siguientes ejemplos, se muestra cómo usar herramientas con un SDK o el comando curl. En los ejemplos, se buscan restaurantes cercanos en San Francisco que estén abiertos.

SDK de Vertex AI para Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación del SDK de Vertex AI de referencia de la API de Vertex para Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Claude Anthropic.
  • MODEL: Es el nombre del modelo que se usará.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
  • CONTENT: el contenido, como texto, del mensaje user o assistant.
  • MAX_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Usa Vertex AI Studio

En el caso de algunos modelos de Anthropic Claude, puedes usar Vertex AI Studio para crear prototipos y probar modelos de IA generativa con rapidez en la consola de Google Cloud. Como ejemplo, puedes usar Vertex AI Studio para comparar las respuestas del modelo de Claude con otros modelos compatibles, como Google Gemini.

Para obtener más información, consulta Guía de inicio rápido: Envía instrucciones de texto a Gemini con Vertex AI Studio.

Disponibilidad de regiones de Claude Anthropic

Claude 3.5 Sonnet v2 está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Haiku está disponible en las siguientes regiones:
  • us-east5 (Ohio)
Claude 3 Opus está disponible en la siguiente región:
  • us-east5 (Ohio)
Claude 3.5 Sonnet está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Haiku está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)

Cuotas de Anthropic Claude y longitud de contexto admitido

En el caso de los modelos Claude, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

Para mantener el rendimiento general del servicio y el uso aceptable, las cuotas máximas pueden variar según la cuenta y, en algunos casos, el acceso puede restringirse. Consulta las cuotas de tu proyecto en la página Cuotas y límites del sistema en la consola de Google Cloud. También debes tener disponibles las siguientes cuotas:

  • Online prediction requests per base model per minute per region per base_model
  • Online prediction tokens per minute per base model per minute per region per base_model

Claude 3.5 Sonnet v2

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible para Claude 3.5 Sonnet v2.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 90 QPM, 540,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 55 QPM, 330,000 TPM 200,000 tokens

Claude 3.5 Haiku

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3.5 Haiku.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 80 QPM, 350,000 TPM 200,000 tokens

Claude 3 Opus

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3 Opus.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 20 QPM, 105,000 TPM 200,000 tokens

Claude 3 Haiku

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3 Haiku.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 245 QPM, 600,000 TPM 200,000 tokens
asia-southeast1 (Singapore) Hasta 70 QPM, 174,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 75 QPM, 181,000 TPM 200,000 tokens

Claude 3.5 Sonnet

En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3.5 Sonnet.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 120 QPM, 555,000 TPM 200,000 tokens
asia-southeast1 (Singapore) Hasta 35 QPM, 150,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 130 QPM, 600,000 TPM 200,000 tokens

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.