É possível transmitir as respostas do Claude para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Você paga pelos modelos do Claude conforme os usa (pagamento por uso) ou paga uma taxa fixa ao usar a capacidade de processamento provisionada. Para preços de pagamento por uso, consulte Modelos Claude da Anthropic na página de preços da Vertex AI.
Modelos Claude disponíveis
Os modelos a seguir estão disponíveis pela Anthropic para uso na Vertex AI. Para acessar um modelo Claude, acesse o card de modelo do Model Garden.
Claude 3.5 Sonnet v2
O Claude 3.5 Sonnet v2 é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet v2 oferece esses avanços pelo mesmo preço e velocidade que o Claude 3.5 Sonnet.
O modelo Claude 3.5 Sonnet atualizado é capaz de interagir com ferramentas que podem manipular um ambiente de computador. Para mais informações, consulte a documentação da Anthropic.
O Claude 3.5 Sonnet é otimizado para os seguintes casos de uso:
- Tarefas e uso de ferramentas de agentes: o Claude 3.5 Sonnet oferece instruções superiores de acompanhamento, seleção de ferramentas, correção de erros e raciocínio avançado para fluxos de trabalho de agentes que exigem o uso de ferramentas.
- Programação: para tarefas de desenvolvimento de software, como migrações, correções e traduções de código, o Claude 3.5 Sonnet oferece um bom desempenho no planejamento e na solução de tarefas de programação complexas.
- Document Q&A - Claude 3.5 Sonnet combina uma compreensão forte de contexto, raciocínio avançado e síntese para fornecer respostas precisas e semelhantes a humanos.
- Extração de dados visuais: com as principais habilidades de visão do Claude 3.5 Sonnet, ele pode extrair dados brutos de recursos visuais, como gráficos ou diagramas, como parte dos fluxos de trabalho de IA.
- Geração e análise de conteúdo: o Claude 3.5 Sonnet pode entender nuances e tons no conteúdo, gerando conteúdo mais envolvente e analisando o conteúdo em um nível mais profundo.
Acesse o card do modelo Claude 3.5 Sonnet v2
Claude 3.5 Haiku
O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. Ela é melhor que a versão anterior em todos os conjuntos de habilidades. O Claude 3.5 Haiku é otimizado para os seguintes casos de uso:
- Preenchimento de código: com o tempo de resposta rápido e o entendimento de padrões de programação, o Claude 3.5 Haiku se destaca por fornecer sugestões e preenchimentos de código rápidos e precisos em fluxos de trabalho de desenvolvimento em tempo real.
- Bots de chat interativos: o raciocínio aprimorado e as habilidades de conversa natural do Claude 3.5 Haiku o tornam ideal para criar bots de chat responsivos e engajadores que podem lidar com grandes volumes de interações do usuário de maneira eficiente.
- Extração e rotulagem de dados: aproveitando as habilidades de análise aprimoradas, o Claude 3.5 Haiku processa e categoriza dados com eficiência, o que é útil para a extração rápida de dados e tarefas de rotulagem automatizadas.
- Moderação de conteúdo em tempo real: com habilidades de raciocínio e compreensão de conteúdo fortes, o Claude 3.5 Haiku oferece moderação de conteúdo rápida e confiável para plataformas que exigem tempos de resposta imediatos em grande escala.
Acesse o card do modelo Claude 3.5 Haiku
Claude 3 Opus
O Claude 3 Opus da Anthropic é um modelo de IA poderoso com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. O Claude 3 Opus é otimizado para os seguintes casos de uso:
Automação de tarefas, como programação e planejamento interativos, ou execução de ações complexas em APIs e bancos de dados.
Tarefas de pesquisa e desenvolvimento, como revisão de pesquisa, brainstorming, geração de hipóteses e teste de produtos.
Tarefas estratégicas, como análise avançada de gráficos, finanças e tendências de mercado, e previsões.
Tarefas de visão, como processar imagens para retornar saídas de texto. Além disso, análise de tabelas, gráficos, diagramas técnicos, relatórios e outros conteúdos visuais.
Acesse o card do modelo Claude 3 Opus
Claude 3 Haiku
O Anthropic Claude 3 Haiku é o modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas.
Interações com o cliente e traduções ao vivo.
Moderação de conteúdo para detectar comportamentos suspeitos ou solicitações de clientes.
Tarefas de economia de custos, como gerenciamento de inventário e extração de conhecimento de dados não estruturados.
Tarefas de visão, como processamento de imagens para retornar resultados de texto, análise de tabelas, gráficos, diagramas técnicos, relatórios e outros conteúdos visuais.
Acesse o card do modelo Claude 3 Haiku
Claude 3.5 Sonnet
O Claude 3.5 Sonnet da Anthropic supera o Claude 3 Opus em uma ampla variação de avaliações da Anthropic, com a velocidade e o custo do modelo de nível médio Claude 3 Sonnet da Anthropic. O Claude 3.5 Sonnet é otimizado para os seguintes casos de uso:
Programação, como escrever, editar e executar código com recursos sofisticados de raciocínio e solução de problemas.
Processe consultas complexas do suporte ao cliente entendendo o contexto do usuário e orquestando fluxos de trabalho de várias etapas.
Ciência e análise de dados navegando em dados não estruturados e usando várias ferramentas para gerar insights.
Processamento visual, como interpretar gráficos que exigem compreensão visual.
Escrever conteúdo com um tom mais natural e humano.
Acesse o card do modelo Claude 3.5 Sonnet
Claude 3 Sonnet
O Claude 3 Sonnet da Anthropic é a combinação confiável de habilidades e velocidade da Anthropic. Ele foi projetado para ser confiável para implantações de IA escalonadas em diversos casos de uso. O Claude 3 Sonnet é otimizado para os seguintes casos de uso:
Processamento de dados, incluindo geração de recuperação aumentada (RAG, na sigla em inglês) e recuperação de pesquisa.
Tarefas de vendas, como recomendações de produtos, previsão e marketing direcionado.
Tarefas que economizam tempo, como geração de código, controle de qualidade e reconhecimento óptico de caracteres (OCR) em imagens.
Tarefas de visão, como processar imagens para retornar saídas de texto. Além disso, análise de tabelas, gráficos, diagramas técnicos, relatórios e outros conteúdos visuais.
Acesse o card do Claude 3 Sonnet
Usar modelos de Claude
É possível usar o SDK do Anthropic ou comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o Claude 3.5 Sonnet v2, use
claude-3-5-sonnet-v2@20241022
. - Para o Claude 3.5 Haiku, use
claude-3-5-haiku@20241022
. - Para o Claude 3 Opus, use
claude-3-opus@20240229
. - Para o Claude 3.5 Sonnet, use
claude-3-5-sonnet@20240620
. - Para o Claude 3 Haiku, use
claude-3-haiku@20240307
. - Para o Claude 3 Sonnet, use
claude-3-sonnet@20240229
.
As versões do modelo Claude da Anthropic precisam ser usadas com um sufixo que começa com um
símbolo @
(como claude-3-5-sonnet-v2@20241022
ou
claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
Antes de começar
Para usar os modelos Claude da Anthropic com a Vertex AI, siga as
etapas abaixo. A API Vertex AI (aiplatform.googleapis.com
) precisa
estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com
a API do Vertex AI ativada, poderá usar esse projeto em vez de
criar um novo.
Verifique se você tem as permissões necessárias para ativar e usar modelos do parceiro. Para mais informações, consulte Conceder as permissões necessárias.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Acesse um dos seguintes cards de modelo do Model Garden e clique em enable:
Usar o SDK do Anthropic
É possível fazer solicitações de API para modelos do Anthropic Claude usando o SDK do Anthropic Claude (link em inglês). Para saber mais, consulte:
- Referência da API Claude messages
- Biblioteca de APIs Python da Anthropic
- Biblioteca de APIs do Vertex AI TypeScript da Anthropic
Fazer uma chamada de streaming para um modelo Claude usando o SDK Vertex da Anthropic
O exemplo de código a seguir usa o SDK Vertex da Anthropic para realizar uma chamada de streaming para um modelo Claude.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Fazer uma chamada unária para um modelo Claude usando o SDK Vertex da Anthropic
O exemplo de código a seguir usa o SDK Vertex da Anthropic para realizar uma chamada unária para um modelo Claude.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Usar um comando curl
É possível usar um comando curl para fazer uma solicitação ao endpoint da Vertex AI. O comando curl especifica qual modelo do Claude compatível você quer usar.
As versões do modelo Claude da Anthropic precisam ser usadas com um sufixo que começa com um
símbolo @
(como claude-3-5-sonnet-v2@20241022
ou
claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
O tópico a seguir mostra como criar um comando curl e inclui uma amostra do comando curl.
REST
Para testar um prompt de texto usando a API Vertex AI, envie uma solicitação POST para o endpoint do modelo do editor.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos do Anthropic Claude.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos de Claude funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- TOP_P (opcional):
o Top-P muda a forma como o modelo seleciona tokens para saída. Os tokens são selecionados
do mais provável (veja o top-K) para o menos provável até que a soma das probabilidades
seja igual ao valor do top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de
0,3, 0,2 e 0,1 e o valor de top-P for
0.5
, o modelo selecionará A ou B como token seguinte usando temperatura e exclui C como candidato.Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias.
- TOP_K(opcional):
o Top-P muda a forma como o modelo seleciona tokens para saída. Um top-K de
1
significa que o próximo token selecionado é o mais provável entre todos os tokens no vocabulário do modelo (também chamado de decodificação gananciosa), enquanto um top-K de3
significa que o próximo token está selecionado entre os três tokens mais prováveis usando a temperatura.Para cada etapa da seleção de tokens, são amostrados os tokens top-K com as maiores probabilidades. Em seguida, os tokens são filtrados com base no valor de top-P com o token final selecionado por meio da amostragem de temperatura.
Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corpo JSON da solicitação:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Exemplo de comando curl
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Uso de ferramentas (chamadas de função)
Os modelos Claude da Anthropic oferecem suporte a ferramentas e chamadas de função para melhorar os recursos de um modelo. Para mais informações, consulte a Visão geral do uso da ferramenta na documentação do Anthropic.
Os exemplos a seguir demonstram como usar ferramentas com o SDK do Anthropic ou o comando curl. Os exemplos pesquisam restaurantes por perto em São Francisco que estão abertos.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
REST
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos do Anthropic Claude.
- MODEL: o nome do modelo a ser usado.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos de Claude funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corpo JSON da solicitação:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Usar o Vertex AI Studio
Para alguns modelos Claude da Anthropic, é possível usar o Vertex AI Studio para prototipar e testar rapidamente modelos de IA generativa no console do Google Cloud. Como exemplo, é possível usar o Vertex AI Studio para comparar as respostas do modelo Claude com outros modelos com suporte, como o Gemini do Google.
Para mais informações, consulte Guia de início rápido: enviar comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade na região de Anthropic Claude
O Claude 3.5 Sonnet v2 está disponível nas seguintes regiões:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
Cotas do Claude da Anthropic e tamanho de contexto compatível
Para os modelos do Claude, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.
Para manter o desempenho geral do serviço e o uso aceitável, as cotas máximas podem variar de acordo com a conta e, em alguns casos, o acesso pode ser restrito. Confira as cotas do seu projeto na página Cotas e limites do sistema no console do Google Cloud. Você também precisa ter as seguintes cotas disponíveis:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.5 Sonnet v2
A tabela a seguir mostra as cotas máximas e o comprimento de contexto aceitos pelo Claude 3.5 Sonnet v2.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 90 QPM, 540.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 55 QPM, 330.000 TPM | 200.000 tokens |
Claude 3.5 Haiku
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3.5 Haiku.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 80 QPM, 350.000 TPM | 200.000 tokens |
Claude 3 Opus
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3 Opus.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 20 QPM, 105.000 TPM | 200.000 tokens |
Claude 3 Haiku
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3 Haiku.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 245 QPM, 600.000 TPM | 200.000 tokens |
asia-southeast1 (Singapore) |
Até 70 QPM, 174.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 75 QPM, 181.000 TPM | 200.000 tokens |
Claude 3.5 Sonnet
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito pelo Claude 3.5 Sonnet.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 120 QPM, 555.000 TPM | 200.000 tokens |
asia-southeast1 (Singapore) |
Até 35 QPM, 150.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 130 QPM, 600.000 TPM | 200.000 tokens |
Claude 3 Sonnet
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3 Sonnet.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 10 QPM, 30.000 TPM | 200.000 tokens |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.