É possível transmitir as respostas do Claude para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Você paga pelos modelos do Claude conforme os usa (pagamento por uso) ou paga uma taxa fixa ao usar a capacidade de processamento provisionada. Para preços de pagamento por uso, consulte Modelos Claude da Anthropic na página de preços da Vertex AI.
Modelos Claude disponíveis
Os modelos a seguir estão disponíveis pela Anthropic para uso na Vertex AI. Para acessar um modelo Claude, acesse o card de modelo do Model Garden.
Claude 3.5 Sonnet v2
O Claude 3.5 Sonnet v2 é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet v2 oferece esses avanços pelo mesmo preço e velocidade que o Claude 3.5 Sonnet.
O modelo Claude 3.5 Sonnet atualizado é capaz de interagir com ferramentas que podem manipular um ambiente de computador. Para mais informações, consulte a documentação do Anthropic.
O Claude 3.5 Sonnet é otimizado para os seguintes casos de uso:
- Tarefas e uso de ferramentas: o Claude 3.5 Sonnet oferece instruções superiores de acompanhamento, seleção de ferramentas, correção de erros e raciocínio avançado para fluxos de trabalho de agentes que exigem o uso de ferramentas.
- Programação: para tarefas de desenvolvimento de software, como migrações, correções e traduções de código, o Claude 3.5 Sonnet oferece um bom desempenho no planejamento e na solução de tarefas de programação complexas.
- Document Q&A - Claude 3.5 Sonnet combina uma compreensão forte de contexto, raciocínio avançado e síntese para fornecer respostas precisas e semelhantes a humanos.
- Extração de dados visuais: com as principais habilidades de visão do Claude 3.5 Sonnet, ele pode extrair dados brutos de recursos visuais, como gráficos ou diagramas, como parte dos fluxos de trabalho de IA.
- Geração e análise de conteúdo: o Claude 3.5 Sonnet pode entender nuances e tons no conteúdo, gerando conteúdo mais envolvente e analisando o conteúdo em um nível mais profundo.
Acesse o card do modelo Claude 3.5 Sonnet v2
Claude 3.5 Haiku
O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. Ela é melhor que a versão anterior em todos os conjuntos de habilidades. O Claude 3.5 Haiku é otimizado para os seguintes casos de uso:
- Preenchimento de código: com o tempo de resposta rápido e o entendimento de padrões de programação, o Claude 3.5 Haiku se destaca por fornecer sugestões e preenchimentos de código rápidos e precisos em fluxos de trabalho de desenvolvimento em tempo real.
- Bots de chat interativos: o raciocínio aprimorado e as habilidades de conversa natural do Claude 3.5 Haiku o tornam ideal para criar bots de chat responsivos e engajadores que podem lidar com grandes volumes de interações do usuário com eficiência.
- Extração e rotulagem de dados: aproveitando as habilidades de análise aprimoradas, o Claude 3.5 Haiku processa e categoriza dados com eficiência, o que é útil para a extração rápida de dados e tarefas de rotulagem automatizadas.
- Moderação de conteúdo em tempo real: com habilidades de raciocínio e compreensão de conteúdo fortes, o Claude 3.5 Haiku oferece moderação de conteúdo rápida e confiável para plataformas que exigem tempos de resposta imediatos em grande escala.
Acesse o card do modelo Claude 3.5 Haiku
Claude 3 Opus
O Claude 3 Opus da Anthropic é um modelo de IA poderoso com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. O Claude 3 Opus é otimizado para os seguintes casos de uso:
Automação de tarefas, como programação e planejamento interativos, ou execução de ações complexas em APIs e bancos de dados.
Tarefas de pesquisa e desenvolvimento, como revisão de pesquisa, brainstorming, geração de hipóteses e teste de produtos.
Tarefas estratégicas, como análise avançada de gráficos, finanças e tendências de mercado, e previsões.
Tarefas de visão, como processar imagens para retornar saídas de texto. Além disso, análise de tabelas, gráficos, diagramas técnicos, relatórios e outros conteúdos visuais.
Acesse o card do modelo Claude 3 Opus
Claude 3 Haiku
O Anthropic Claude 3 Haiku é o modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas.
Interações com o cliente e traduções ao vivo.
Moderação de conteúdo para detectar comportamentos suspeitos ou solicitações de clientes.
Tarefas de economia de custos, como gerenciamento de inventário e extração de conhecimento de dados não estruturados.
Tarefas de visão, como processamento de imagens para retornar resultados de texto, análise de tabelas, gráficos, diagramas técnicos, relatórios e outros conteúdos visuais.
Acesse o card do modelo Claude 3 Haiku
Claude 3.5 Sonnet
O Claude 3.5 Sonnet da Anthropic supera o Claude 3 Opus em uma ampla gama de avaliações da Anthropic, com a velocidade e o custo do modelo de nível intermediário Claude 3 Sonnet da Anthropic. O Claude 3.5 Sonnet é otimizado para os seguintes casos de uso:
Programação, como escrever, editar e executar código com recursos sofisticados de raciocínio e solução de problemas.
Processe consultas complexas do suporte ao cliente entendendo o contexto do usuário e orquestando fluxos de trabalho de várias etapas.
Ciência e análise de dados navegando em dados não estruturados e usando várias ferramentas para gerar insights.
Processamento visual, como interpretar gráficos que exigem compreensão visual.
Escrever conteúdo com um tom mais natural e humano.
Acesse o card do modelo Claude 3.5 Sonnet
Usar modelos de Claude
É possível usar o SDK do Anthropic ou comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o Claude 3.5 Sonnet v2, use
claude-3-5-sonnet-v2@20241022
. - Para o Claude 3.5 Haiku, use
claude-3-5-haiku@20241022
. - Para o Claude 3 Opus, use
claude-3-opus@20240229
. - Para o Claude 3.5 Sonnet, use
claude-3-5-sonnet@20240620
. - Para o Claude 3 Haiku, use
claude-3-haiku@20240307
.
As versões do modelo Anthropic Claude precisam ser usadas com um sufixo que comece com um
símbolo @
(como claude-3-5-sonnet-v2@20241022
ou
claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
Antes de começar
Para usar os modelos do Anthropic Claude com a Vertex AI, siga as
etapas abaixo. A API Vertex AI (aiplatform.googleapis.com
) precisa
estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com
a API do Vertex AI ativada, poderá usar esse projeto em vez de
criar um novo.
Verifique se você tem as permissões necessárias para ativar e usar modelos do parceiro. Para mais informações, consulte Conceder as permissões necessárias.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
Usar o SDK do Anthropic
É possível fazer solicitações de API para os modelos do Anthropic Claude usando o SDK do Anthropic Claude (link em inglês). Para saber mais, consulte:
- Referência da API Claude messages
- Biblioteca de APIs Anthropic Python
- Biblioteca de APIs do Vertex AI TypeScript do Anthropic
Fazer uma chamada de streaming para um modelo Claude usando o SDK Vertex Anthropic
O exemplo de código a seguir usa o SDK Vertex Anthropic para realizar uma chamada de streaming para um modelo Claude.
SDK da Vertex AI para Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Saiba mais na documentação de referência da API SDK da Vertex AI para Python.
Fazer uma chamada unária para um modelo Claude usando o SDK Vertex Anthropic
O exemplo de código a seguir usa o SDK Vertex Anthropic para realizar uma chamada unária para um modelo Claude.
SDK da Vertex AI para Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Saiba mais na documentação de referência da API SDK da Vertex AI para Python.
Usar um comando curl
É possível usar um comando curl para fazer uma solicitação ao endpoint da Vertex AI. O comando curl especifica qual modelo do Claude compatível você quer usar.
As versões do modelo Anthropic Claude precisam ser usadas com um sufixo que comece com um
símbolo @
(como claude-3-5-sonnet-v2@20241022
ou
claude-3-5-haiku@20241022
) para garantir um comportamento consistente.
O tópico a seguir mostra como criar um comando curl e inclui uma amostra do comando curl.
REST
Para testar um prompt de texto usando a API Vertex AI, envie uma solicitação POST para o endpoint do modelo do editor.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos do Anthropic Claude.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos de Claude funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- TOP_P (opcional):
o Top-P muda a forma como o modelo seleciona tokens para saída. Os tokens são selecionados
do mais provável (veja o top-K) para o menos provável até que a soma das probabilidades
seja igual ao valor do top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de
0,3, 0,2 e 0,1 e o valor de top-P for
0.5
, o modelo selecionará A ou B como token seguinte usando temperatura e exclui C como candidato.Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias.
- TOP_K(opcional):
o Top-P muda a forma como o modelo seleciona tokens para saída. Um top-K de
1
significa que o próximo token selecionado é o mais provável entre todos os tokens no vocabulário do modelo (também chamado de decodificação gananciosa), enquanto um top-K de3
significa que o próximo token está selecionado entre os três tokens mais prováveis usando a temperatura.Para cada etapa da seleção de tokens, são amostrados os tokens top-K com as maiores probabilidades. Em seguida, os tokens são filtrados com base no valor de top-P com o token final selecionado por meio da amostragem de temperatura.
Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corpo JSON da solicitação:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Exemplo de comando curl
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Uso de ferramentas (chamadas de função)
Os modelos do Anthropic Claude oferecem suporte a ferramentas e chamadas de função para melhorar os recursos de um modelo. Para mais informações, consulte a Visão geral do uso da ferramenta na documentação do Anthropic.
Os exemplos a seguir demonstram como usar ferramentas com um SDK ou comando curl. Os exemplos pesquisam restaurantes por perto em São Francisco que estão abertos.
SDK da Vertex AI para Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Saiba mais na documentação de referência da API SDK da Vertex AI para Python.
REST
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos do Anthropic Claude.
- MODEL: o nome do modelo a ser usado.
- ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos de Claude funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corpo JSON da solicitação:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Usar o Vertex AI Studio
Para alguns modelos do Anthropic Claude, é possível usar o Vertex AI Studio para prototipar e testar rapidamente modelos de IA generativa no console do Google Cloud. Como exemplo, é possível usar o Vertex AI Studio para comparar as respostas do modelo Claude com outros modelos compatíveis, como o Google Gemini.
Para mais informações, consulte Guia de início rápido: enviar comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade na região de Anthropic Claude
O Claude 3.5 Sonnet v2 está disponível nas seguintes regiões:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
Cotas do Anthropic Claude e tamanho de contexto compatível
Para os modelos do Claude, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.
Para manter o desempenho geral do serviço e o uso aceitável, as cotas máximas podem variar de acordo com a conta e, em alguns casos, o acesso pode ser restrito. Confira as cotas do seu projeto na página Cotas e limites do sistema no console do Google Cloud. Você também precisa ter as seguintes cotas disponíveis:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.5 Sonnet v2
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito pelo Claude 3.5 Sonnet v2.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 90 QPM, 540.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 55 QPM, 330.000 TPM | 200.000 tokens |
Claude 3.5 Haiku
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3.5 Haiku.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 80 QPM, 350.000 TPM | 200.000 tokens |
Claude 3 Opus
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3 Opus.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 20 QPM, 105.000 TPM | 200.000 tokens |
Claude 3 Haiku
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito no Claude 3 Haiku.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 245 QPM, 600.000 TPM | 200.000 tokens |
asia-southeast1 (Singapore) |
Até 70 QPM, 174.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 75 QPM, 181.000 TPM | 200.000 tokens |
Claude 3.5 Sonnet
A tabela a seguir mostra as cotas máximas e o tamanho de contexto aceito pelo Claude 3.5 Sonnet.
Região | Cotas | Tamanho de contexto compatível |
---|---|---|
us-east5 (Ohio) |
Até 120 QPM, 555.000 TPM | 200.000 tokens |
asia-southeast1 (Singapore) |
Até 35 QPM, 150.000 TPM | 200.000 tokens |
europe-west1 (Belgium) |
Até 130 QPM, 600.000 TPM | 200.000 tokens |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.