A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estão disponíveis em projetos que não tenham usado estes modelos anteriormente, incluindo novos projetos. Para ver detalhes, consulte o artigo Versões e ciclo de vida dos modelos.

Esta página foi traduzida pela API Cloud Translation.

Peça previsões com modelos Claude

Pode usar o SDK da Anthropic ou comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:

Para o Claude Opus 4.1, use claude-opus-4-1@20250805
Para o Claude Opus 4, use claude-opus-4@20250514
Para o Claude Sonnet 4, use claude-sonnet-4@20250514
Para o Claude 3.7 Sonnet, use claude-3-7-sonnet@20250219
Para o Claude 3.5 Sonnet v2, use claude-3-5-sonnet-v2@20241022
Para o Claude 3.5 Haiku, use claude-3-5-haiku@20241022
Para o Claude 3.5 Sonnet, use claude-3-5-sonnet@20240620
Para o Claude 3 Opus, use claude-3-opus@20240229
Para o Claude 3 Haiku, use claude-3-haiku@20240307

As versões do modelo Claude da Anthropic têm de ser usadas com um sufixo que comece com um símbolo @ (como claude-3-7-sonnet@20250219 ou claude-3-5-haiku@20241022) para garantir um comportamento consistente.

Antes de começar

Para usar os modelos Claude da Anthropic com a Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.

Certifique-se de que tem as autorizações necessárias para ativar e usar modelos de parceiros. Para mais informações, consulte o artigo Conceda as autorizações necessárias.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:

A Anthropic recomenda que ative o registo de 30 dias da sua atividade de comandos e conclusão para registar qualquer utilização indevida do modelo. Para ativar o registo, consulte o artigo Registe pedidos e respostas.

Use o SDK da Anthropic

Pode fazer pedidos de API aos modelos Claude da Anthropic através do SDK Claude da Anthropic. Para saber mais, consulte o seguinte:

Faça uma chamada de streaming para um modelo Claude através do Anthropic Vertex SDK

O exemplo de código seguinte usa o Anthropic Vertex SDK para fazer uma chamada de streaming a um modelo Claude.

Python

Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.

O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Faça uma chamada unária a um modelo Claude através do Anthropic Vertex SDK

O exemplo de código seguinte usa o SDK Vertex da Anthropic para fazer uma chamada unária a um modelo Claude.

Python

O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

Use um comando curl

Pode usar um comando curl para fazer um pedido ao ponto final da Vertex AI. O comando curl especifica que modelo do Claude suportado quer usar.

O tópico seguinte mostra como criar um comando curl e inclui um comando curl de exemplo.

REST

Para testar um comando de texto através da API Vertex AI, envie um pedido POST para o ponto final do modelo do publicador.

O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

LOCATION: Uma região que suporta os modelos Claude da Anthropic. Para usar o ponto final global, consulte a secção Especifique o ponto final global.
MODEL: o nome do modelo que quer usar.
ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos Claude funcionam com turnos alternados user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
CONTENT: O conteúdo, como texto, da mensagem user ou assistant.
MAX_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
TOP_P (Opcional): O Top-P altera a forma como o modelo seleciona tokens para a saída. Os tokens são selecionados do mais provável para o menos provável até que a soma das respetivas probabilidades seja igual ao valor de Top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,3, 0,2 e 0,1 e o valor de top-P for 0.5, o modelo seleciona A ou B como o token seguinte através da temperatura e exclui C como um candidato.
Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias.
TOP_K(Opcional): o Top-K altera a forma como o modelo seleciona tokens para a saída. Um top-K de 1 significa que o token selecionado seguinte é o mais provável entre todos os tokens no vocabulário do modelo (também denominado descodificação gananciosa), enquanto um top-K de 3 significa que o token seguinte é selecionado entre os três tokens mais prováveis através da temperatura.
Para cada passo de seleção de tokens, são amostrados os K principais tokens com as probabilidades mais elevadas. Em seguida, os tokens são filtrados com base no top-P, sendo o token final selecionado através da amostragem de temperatura.

Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias.
TYPE: Para o Claude 3.7 Sonnet e modelos Claude posteriores, para ativar o modo de reflexão alargado, especifique enabled.
BUDGET_TOKENS: se ativar o raciocínio alargado, tem de especificar o número de tokens que o modelo pode usar para o respetivo raciocínio interno como parte da saída. Os orçamentos maiores podem permitir uma análise mais detalhada de problemas complexos e melhorar a qualidade das respostas. Tem de especificar um valor igual ou superior a 1024 mas inferior a MAX_TOKENS.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

Corpo JSON do pedido:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "thinking": {
    "type": "TYPE",
    "budget_tokens": BUDGET_TOKENS
  }
}

Para enviar o seu pedido, escolha uma destas opções:

curl

Nota: O comando seguinte pressupõe que tem sessão iniciada na CLI gcloud com a sua conta de utilizador executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que inicia automaticamente sessão na CLI gcloud. Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Nota: O comando seguinte pressupõe que iniciou sessão na CLI do Google Cloud com a sua conta de utilizador executando gcloud init ou gcloud auth login .gcloud Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte.

Resposta

{
  "id":"msg_012NDLxqh6LsztWCU7zTb14C",
  "type":"message",
  "role":"assistant",
  "content":[{
    "type":"text",
    "text":"Hello! Nice to meet you."
  }],
  "model":"claude-2.1",
  "stop_reason":"end_turn",
  "stop_sequence":null,
  "usage":{
    "input_tokens":11,
    "output_tokens":11
  }
}

Comando curl de exemplo

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Utilização de ferramentas (chamada de funções)

Os modelos Claude da Anthropic suportam ferramentas e chamadas de funções para melhorar as capacidades de um modelo. Para mais informações, consulte a Vista geral da utilização de ferramentas na documentação da Anthropic.

Os exemplos seguintes demonstram como usar ferramentas através de um SDK ou de um comando curl. Os exemplos pesquisam restaurantes abertos nas proximidades em São Francisco.

Python

O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

LOCATION: Uma região que suporta os modelos Claude da Anthropic. Para usar o ponto final global, consulte a secção Especifique o ponto final global.
MODEL: o nome do modelo a usar.
ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos Claude funcionam com turnos alternados user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
MAX_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

Corpo JSON do pedido:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Para enviar o seu pedido, escolha uma destas opções:

curl

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte.

Resposta

{
  "id": "msg_vrtx_01ErR7VMNQdnvDt3n7Nmc4ER",
  "type": "message",
  "role": "assistant",
  "model": "claude-3-opus-20240229",
  "content": [
    {
      "type": "text",
      "text": "\nTo find affordable and good Italian restaurants that are currently open in San Francisco, the text_search_places_api tool seems most relevant. \n\nThe required textQuery parameter can be inferred as \"Italian restaurants in San Francisco\", since the user specified Italian restaurants and the location of San Francisco.\n\nTwo optional parameters are also relevant:\nopenNow - this should be set to true, since the user specified they want restaurants open now\npriceLevels - to find affordable restaurants, this can be set to [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE]\n\nWith the textQuery provided and the two optional parameters that can help narrow the results to match the user's criteria, we have enough information to make a good call to the text_search_places_api tool to try to answer the user's request.\n"
    },
    {
      "type": "tool_use",
      "id": "toolu_vrtx_01TAJCTkxe8HhRoaQ69N4ouP",
      "name": "text_search_places_api",
      "input": {
        "textQuery": "Italian restaurants in San Francisco",
        "openNow": true,
        "priceLevels": [
          "PRICE_LEVEL_INEXPENSIVE",
          "PRICE_LEVEL_MODERATE"
        ]
      }
    }
  ],
  "stop_reason": "tool_use",
  "stop_sequence": null,
  "usage": {
    "input_tokens": 727,
    "output_tokens": 308
  }
}

Use o Vertex AI Studio

Para alguns dos modelos Claude da Anthropic, pode usar o Vertex AI Studio para criar protótipos e testar rapidamente modelos de IA generativa na Google Cloud consola. Por exemplo, pode usar o Vertex AI Studio para comparar as respostas do modelo Claude com outros modelos suportados, como o Google Gemini.

Para mais informações, consulte o artigo Início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.

Disponibilidade regional e quotas do Anthropic Claude

Os modelos Claude têm quotas regionais e, para modelos que suportam um ponto final global, uma quota global. A quota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e de saída.

Para manter o desempenho geral do serviço e a utilização aceitável, as quotas máximas podem variar consoante a conta e, em alguns casos, o acesso pode ser restrito. Veja as quotas do seu projeto na página Quotas e limites do sistema na Google Cloud consola. Também tem de ter as seguintes quotas disponíveis:

online_prediction_requests_per_base_model e global_online_prediction_requests_per_base_model definem a sua quota de QPM.
Para o TPM, existem três valores de quota que se aplicam a modelos específicos:
- Para modelos que contam os tokens de entrada e saída em conjunto, online_prediction_tokens_per_minute_per_base_model e global_online_prediction_tokens_per_minute_per_base_model definem a quota de TPM do modelo.
- Para modelos que contam os tokens de entrada e saída separadamente, online_prediction_input_tokens_per_minute_per_base_model e global_online_prediction_input_tokens_per_minute_per_base_model definem a quota de TPM de entrada e online_prediction_output_tokens_per_minute_per_base_model e global_online_prediction_output_tokens_per_minute_per_base_model definem a quota de TPM de saída.
Para ver que modelos contabilizam os tokens de entrada e saída separadamente, consulte Quotas por modelo e região.

Introduzir tokens

A lista seguinte define os tokens de entrada que podem ser contabilizados na sua quota de TPM de entrada. O número de tokens de entrada que cada modelo conta pode variar. Para ver que tokens de entrada um modelo contabiliza, consulte o artigo Quotas por modelo e região.

Os tokens de entrada incluem todos os tokens de entrada, incluindo tokens de leitura e gravação da cache.
Os tokens de entrada não colocados em cache incluem apenas os tokens de entrada que não foram lidos de uma cache (tokens de leitura da cache).
Tokens de gravação da cache inclui tokens que foram usados para criar ou atualizar uma cache.

Quotas por modelo e região

A tabela seguinte mostra as quotas predefinidas e o comprimento do contexto suportado para cada modelo em cada região.

Modelo	Região	Quotas	Comprimento do contexto
Claude Opus 4.1
	`us-east5`	QPM: 25 Entrada TPM: 60 000 sem cache e gravação na cache TPM de saída: 6000	200 000
	`global endpoint`	QPM: 25 Entrada TPM: 60 000 sem cache e gravação na cache TPM de saída: 6000	200 000
Claude Opus 4
	`us-east5`	QPM: 25 Entrada TPM: 60 000 sem cache e gravação na cache TPM de saída: 6000	200 000
	`global endpoint`	QPM: 25 Entrada TPM: 60 000 sem cache e gravação na cache TPM de saída: 6000	200 000
Claude Sonnet 4
	`us-east5`	QPM: 35 Entrada TPM: 280 000 sem cache e gravação na cache TPM de saída: 20 000	1 000 000
	`europe-west1`	QPM: 25 Entrada TPM: 180 000 sem cache e gravação na cache TPM de saída: 20 000	1 000 000
	`asia-east1`	QPM: 70 Entrada TPM: 550 000 sem cache e gravação em cache TPM de saída: 50 000	1 000 000
	`global endpoint`	QPM: 35 TPM de entrada: 276 000 sem cache e gravação na cache TPM de saída: 24 000	1 000 000
Claude 3.7 Sonnet
	`us-east5`	QPM: 55 TPM: 500 000 (entrada e saída sem cache)	200 000
	`europe-west1`	QPM: 40 TPM: 300 000 (entrada e saída sem cache)	200 000
	`global endpoint`	QPM: 35 TPM: 300 000 (entrada e saída sem cache)	200 000
Claude 3.5 Sonnet v2
	`us-east5`	QPM: 90 TPM: 540 000 (entrada e saída)	200 000
	`europe-west1`	QPM: 55 TPM: 330 000 (entrada e saída)	200 000
	`global endpoint`	QPM: 25 TPM: 140 000 (entrada e saída)	200 000
Claude 3.5 Haiku
	`us-east5`	QPM: 80 TPM: 350 000 (entrada e saída)	200 000
	`europe-west1`	QPM: 90 TPM: 400 000 (entrada e saída)	200 000
Claude 3.5 Sonnet
	`us-east5`	QPM: 80 TPM: 350 000 (entrada e saída)	200 000
	`europe-west1`	QPM: 130 TPM: 600 000 (entrada e saída)	200 000
	`asia-southeast1`	QPM: 35 TPM: 150 000 (entrada e saída)	200 000
Claude 3 Opus
Claude 3 Opus	`us-east5`	QPM: 20 TPM: 105 000 (entrada e saída)	200 000
Claude 3 Haiku
	`us-east5`	QPM: 245 TPM: 600 000 (entrada e saída)	200 000
	`europe-west1`	QPM: 75 TPM: 181 000 (entrada e saída)	200 000
	`asia-southeast1`	QPM: 70 TPM: 174 000 (entrada e saída)	200 000

Se quiser aumentar alguma das suas quotas para a IA generativa na Vertex AI, pode usar a consola para pedir um aumento da quota. Google Cloud Para saber mais sobre as quotas, consulte o artigo Trabalhe com quotas.

Peça previsões com modelos Claude Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Use o SDK da Anthropic

Faça uma chamada de streaming para um modelo Claude através do Anthropic Vertex SDK

Python

Faça uma chamada unária a um modelo Claude através do Anthropic Vertex SDK

Python

Use um comando curl

REST

curl

PowerShell

Resposta

Comando curl de exemplo

Utilização de ferramentas (chamada de funções)

Python

REST

curl

PowerShell

Resposta

Use o Vertex AI Studio

Disponibilidade regional e quotas do Anthropic Claude

Introduzir tokens

Quotas por modelo e região

Peça previsões com modelos Claude