Pode usar o SDK da Anthropic ou comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:
- Para o Claude Opus 4.1, use
claude-opus-4-1@20250805
- Para o Claude Opus 4, use
claude-opus-4@20250514
- Para o Claude Sonnet 4, use
claude-sonnet-4@20250514
- Para o Claude 3.7 Sonnet, use
claude-3-7-sonnet@20250219
- Para o Claude 3.5 Sonnet v2, use
claude-3-5-sonnet-v2@20241022
- Para o Claude 3.5 Haiku, use
claude-3-5-haiku@20241022
- Para o Claude 3.5 Sonnet, use
claude-3-5-sonnet@20240620
- Para o Claude 3 Opus, use
claude-3-opus@20240229
- Para o Claude 3 Haiku, use
claude-3-haiku@20240307
As versões do modelo Claude da Anthropic têm de ser usadas com um sufixo que comece com um símbolo @
(como claude-3-7-sonnet@20250219
ou claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
Antes de começar
Para usar os modelos Claude da Anthropic com a Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com
) tem de
estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.
Certifique-se de que tem as autorizações necessárias para ativar e usar modelos de parceiros. Para mais informações, consulte o artigo Conceda as autorizações necessárias.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em
Ativar:
- Aceda ao cartão do modelo Claude Opus 4.1
- Aceda ao cartão do modelo Claude Opus 4
- Aceda ao cartão do modelo Claude Sonnet 4
- Aceda ao cartão do modelo Claude 3.7 Sonnet
- Aceda ao cartão do modelo Claude 3.5 Sonnet v2
- Aceda ao cartão do modelo Claude 3.5 Haiku
- Aceda ao cartão do modelo Claude 3.5 Sonnet
- Aceda ao cartão do modelo Claude 3 Opus
- Aceda ao cartão do modelo Claude 3 Haiku
- Referência da API Claude messages
- Biblioteca da API Python da Anthropic
- Biblioteca de APIs TypeScript da Anthropic Vertex AI
- LOCATION: Uma região que suporta os modelos Claude da Anthropic. Para usar o ponto final global, consulte a secção Especifique o ponto final global.
- MODEL: o nome do modelo que quer usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos Claude funcionam com turnos alternadosuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - CONTENT: O conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
- TOP_P (Opcional):
O Top-P altera a forma como o modelo seleciona tokens para a saída. Os tokens são selecionados do mais provável para o menos provável até que a soma das respetivas probabilidades seja igual ao valor de Top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,3, 0,2 e 0,1 e o valor de top-P for
0.5
, o modelo seleciona A ou B como o token seguinte através da temperatura e exclui C como um candidato.Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias.
- TOP_K(Opcional):
o Top-K altera a forma como o modelo seleciona tokens para a saída. Um top-K de
1
significa que o token selecionado seguinte é o mais provável entre todos os tokens no vocabulário do modelo (também denominado descodificação gananciosa), enquanto um top-K de3
significa que o token seguinte é selecionado entre os três tokens mais prováveis através da temperatura.Para cada passo de seleção de tokens, são amostrados os K principais tokens com as probabilidades mais elevadas. Em seguida, os tokens são filtrados com base no top-P, sendo o token final selecionado através da amostragem de temperatura.
Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias.
- TYPE: Para o Claude 3.7 Sonnet e modelos Claude posteriores, para ativar o modo de reflexão alargado, especifique
enabled
. - BUDGET_TOKENS: se ativar o raciocínio alargado, tem de especificar o número de tokens que o modelo pode usar para o respetivo raciocínio interno como parte da saída. Os orçamentos maiores podem permitir uma análise mais detalhada de problemas complexos e melhorar a qualidade das respostas. Tem de especificar um valor igual ou superior a
1024
mas inferior aMAX_TOKENS
. - LOCATION: Uma região que suporta os modelos Claude da Anthropic. Para usar o ponto final global, consulte a secção Especifique o ponto final global.
- MODEL: o nome do modelo a usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos Claude funcionam com turnos alternadosuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - CONTENT: O conteúdo, como o texto, da mensagem
user
ouassistant
. - MAX_TOKENS:
Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
online_prediction_requests_per_base_model
eglobal_online_prediction_requests_per_base_model
definem a sua quota de QPM.Para o TPM, existem três valores de quota que se aplicam a modelos específicos:
- Para modelos que contam os tokens de entrada e saída em conjunto,
online_prediction_tokens_per_minute_per_base_model
eglobal_online_prediction_tokens_per_minute_per_base_model
definem a quota de TPM do modelo. - Para modelos que contam os tokens de entrada e saída separadamente,
online_prediction_input_tokens_per_minute_per_base_model
eglobal_online_prediction_input_tokens_per_minute_per_base_model
definem a quota de TPM de entrada eonline_prediction_output_tokens_per_minute_per_base_model
eglobal_online_prediction_output_tokens_per_minute_per_base_model
definem a quota de TPM de saída.
Para ver que modelos contabilizam os tokens de entrada e saída separadamente, consulte Quotas por modelo e região.
- Para modelos que contam os tokens de entrada e saída em conjunto,
- Os tokens de entrada incluem todos os tokens de entrada, incluindo tokens de leitura e gravação da cache.
- Os tokens de entrada não colocados em cache incluem apenas os tokens de entrada que não foram lidos de uma cache (tokens de leitura da cache).
- Tokens de gravação da cache inclui tokens que foram usados para criar ou atualizar uma cache.
- QPM: 25
- Entrada TPM: 60 000 sem cache e gravação na cache
- TPM de saída: 6000
- QPM: 25
- Entrada TPM: 60 000 sem cache e gravação na cache
- TPM de saída: 6000
- QPM: 25
- Entrada TPM: 60 000 sem cache e gravação na cache
- TPM de saída: 6000
- QPM: 25
- Entrada TPM: 60 000 sem cache e gravação na cache
- TPM de saída: 6000
- QPM: 35
- Entrada TPM: 280 000 sem cache e gravação na cache
- TPM de saída: 20 000
- QPM: 25
- Entrada TPM: 180 000 sem cache e gravação na cache
- TPM de saída: 20 000
- QPM: 70
- Entrada TPM: 550 000 sem cache e gravação em cache
- TPM de saída: 50 000
- QPM: 35
- TPM de entrada: 276 000 sem cache e gravação na cache
- TPM de saída: 24 000
- QPM: 55
- TPM: 500 000 (entrada e saída sem cache)
- QPM: 40
- TPM: 300 000 (entrada e saída sem cache)
- QPM: 35
- TPM: 300 000 (entrada e saída sem cache)
- QPM: 90
- TPM: 540 000 (entrada e saída)
- QPM: 55
- TPM: 330 000 (entrada e saída)
- QPM: 25
- TPM: 140 000 (entrada e saída)
- QPM: 80
- TPM: 350 000 (entrada e saída)
- QPM: 90
- TPM: 400 000 (entrada e saída)
- QPM: 80
- TPM: 350 000 (entrada e saída)
- QPM: 130
- TPM: 600 000 (entrada e saída)
- QPM: 35
- TPM: 150 000 (entrada e saída)
- QPM: 20
- TPM: 105 000 (entrada e saída)
- QPM: 245
- TPM: 600 000 (entrada e saída)
- QPM: 75
- TPM: 181 000 (entrada e saída)
- QPM: 70
- TPM: 174 000 (entrada e saída)
A Anthropic recomenda que ative o registo de 30 dias da sua atividade de comandos e conclusão para registar qualquer utilização indevida do modelo. Para ativar o registo, consulte o artigo Registe pedidos e respostas.
Use o SDK da Anthropic
Pode fazer pedidos de API aos modelos Claude da Anthropic através do SDK Claude da Anthropic. Para saber mais, consulte o seguinte:
Faça uma chamada de streaming para um modelo Claude através do Anthropic Vertex SDK
O exemplo de código seguinte usa o Anthropic Vertex SDK para fazer uma chamada de streaming a um modelo Claude.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.Faça uma chamada unária a um modelo Claude através do Anthropic Vertex SDK
O exemplo de código seguinte usa o SDK Vertex da Anthropic para fazer uma chamada unária a um modelo Claude.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.Use um comando curl
Pode usar um comando curl para fazer um pedido ao ponto final da Vertex AI. O comando curl especifica que modelo do Claude suportado quer usar.
As versões do modelo Claude da Anthropic têm de ser usadas com um sufixo que comece com um símbolo @
(como claude-3-7-sonnet@20250219
ou claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
O tópico seguinte mostra como criar um comando curl e inclui um comando curl de exemplo.
REST
Para testar um comando de texto através da API Vertex AI, envie um pedido POST para o ponto final do modelo do publicador.
O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corpo JSON do pedido:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM, "thinking": { "type": "TYPE", "budget_tokens": BUDGET_TOKENS } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Comando curl de exemplo
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Utilização de ferramentas (chamada de funções)
Os modelos Claude da Anthropic suportam ferramentas e chamadas de funções para melhorar as capacidades de um modelo. Para mais informações, consulte a Vista geral da utilização de ferramentas na documentação da Anthropic.
Os exemplos seguintes demonstram como usar ferramentas através de um SDK ou de um comando curl. Os exemplos pesquisam restaurantes abertos nas proximidades em São Francisco.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.REST
O exemplo seguinte usa pontos finais regionais. Para usar o ponto final global, consulte o artigo Especifique o ponto final global.Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corpo JSON do pedido:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Use o Vertex AI Studio
Para alguns dos modelos Claude da Anthropic, pode usar o Vertex AI Studio para criar protótipos e testar rapidamente modelos de IA generativa na Google Cloud consola. Por exemplo, pode usar o Vertex AI Studio para comparar as respostas do modelo Claude com outros modelos suportados, como o Google Gemini.
Para mais informações, consulte o artigo Início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade regional e quotas do Anthropic Claude
Os modelos Claude têm quotas regionais e, para modelos que suportam um ponto final global, uma quota global. A quota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e de saída.
Para manter o desempenho geral do serviço e a utilização aceitável, as quotas máximas podem variar consoante a conta e, em alguns casos, o acesso pode ser restrito. Veja as quotas do seu projeto na página Quotas e limites do sistema na Google Cloud consola. Também tem de ter as seguintes quotas disponíveis:
Introduzir tokens
A lista seguinte define os tokens de entrada que podem ser contabilizados na sua quota de TPM de entrada. O número de tokens de entrada que cada modelo conta pode variar. Para ver que tokens de entrada um modelo contabiliza, consulte o artigo Quotas por modelo e região.
Quotas por modelo e região
A tabela seguinte mostra as quotas predefinidas e o comprimento do contexto suportado para cada modelo em cada região.
Modelo | Região | Quotas | Comprimento do contexto |
---|---|---|---|
Claude Opus 4.1 | |||
us-east5 |
|
200 000 | |
global endpoint |
|
200 000 | |
Claude Opus 4 | |||
us-east5 |
|
200 000 | |
global endpoint |
|
200 000 | |
Claude Sonnet 4 | |||
us-east5 |
|
1 000 000 | |
europe-west1 |
|
1 000 000 | |
asia-east1 |
|
1 000 000 | |
global endpoint |
|
1 000 000 | |
Claude 3.7 Sonnet | |||
us-east5 |
|
200 000 | |
europe-west1 |
|
200 000 | |
global endpoint |
|
200 000 | |
Claude 3.5 Sonnet v2 | |||
us-east5 |
|
200 000 | |
europe-west1 |
|
200 000 | |
global endpoint |
|
200 000 | |
Claude 3.5 Haiku | |||
us-east5 |
|
200 000 | |
europe-west1 |
|
200 000 | |
Claude 3.5 Sonnet | |||
us-east5 |
|
200 000 | |
europe-west1 |
|
200 000 | |
asia-southeast1 |
|
200 000 | |
Claude 3 Opus | |||
us-east5 |
|
200 000 | |
Claude 3 Haiku | |||
us-east5 |
|
200 000 | |
europe-west1 |
|
200 000 | |
asia-southeast1 |
|
200 000 |
Se quiser aumentar alguma das suas quotas para a IA generativa na Vertex AI, pode usar a consola para pedir um aumento da quota. Google Cloud Para saber mais sobre as quotas, consulte o artigo Trabalhe com quotas.