É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o Llama 4 Maverick 17B-128E, use
llama-4-maverick-17b-128e-instruct-maas - Para o Llama 4 Scout 17B-16E, use
llama-4-scout-17b-16e-instruct-maas - Para o Llama 3.3 70B, use
llama-3.3-70b-instruct-maas - Para o Llama 3.2 90B, use
llama-3.2-90b-vision-instruct-maas - Para o Llama 3.1 405B, use
llama-3.1-405b-instruct-maas - Para o Llama 3.1 70B, use
llama-3.1-70b-instruct-maas - Para o Llama 3.1 8B, use
llama-3.1-8b-instruct-maas
Para saber como fazer chamadas de streaming e sem streaming para modelos Llama, consulte Chamar APIs do MaaS para modelos abertos.
Antes de começar
Para usar modelos Llama com a Vertex AI, faça o
etapas a seguir. A API Vertex AI (aiplatform.googleapis.com) precisa
estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com
a API do Vertex AI ativada, poderá usar esse projeto em vez de
criar um novo.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. - Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
- LOCATION: uma região compatível com modelos Llama.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
userouassistant. A primeira mensagem precisa usar o papeluser. Os modelos funcionam com voltas alternadas deusereassistant. Se a mensagem final usar o papelassistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - CONTENT: o conteúdo, como texto, da mensagem
userouassistant. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
truepara transmitir a resposta efalsepara retornar a resposta de uma só vez. - ENABLE_LLAMA_GUARD: um booleano que especifica se o Llama Guard será ativado nas entradas e saídas. Por padrão, o Llama Guard está ativado e sinaliza respostas se determinar que elas são inseguras.
- LOCATION: uma região compatível com modelos Llama.
- MODEL: o nome do modelo que você quer usar.
- ROLE: o papel associado a uma mensagem. É possível especificar
userouassistant. A primeira mensagem precisa usar o papeluser. Os modelos funcionam com voltas alternadas deusereassistant. Se a mensagem final usar o papelassistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - CONTENT: o conteúdo, como texto, da mensagem
userouassistant. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
- STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
truepara transmitir a resposta efalsepara retornar a resposta de uma só vez. - ENABLE_LLAMA_GUARD: um booleano que especifica se o Llama Guard será ativado nas entradas e saídas. Por padrão, o Llama Guard está ativado e sinaliza respostas se determinar que elas são inseguras.
- QPM: 100
- QPM: 30
- QPM: 60
- QPM: 60
- QPM: 60
Fazer uma chamada de streaming para um modelo Llama
O exemplo a seguir faz uma chamada de streaming para um modelo Llama.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON da solicitação:
{
"model": "meta/MODEL",
"messages": [
{
"role": "ROLE",
"content": "CONTENT"
}
],
"max_tokens": MAX_OUTPUT_TOKENS,
"stream": true,
"extra_body": {
"google": {
"model_safety_settings": {
"enabled": ENABLE_LLAMA_GUARD,
"llama_guard_settings": {}
}
}
}
}
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Fazer uma chamada unária para um modelo Llama
O exemplo a seguir faz uma chamada unária para um modelo Llama.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON da solicitação:
{
"model": "meta/MODEL",
"messages": [
{
"role": "ROLE",
"content": "CONTENT"
}
],
"max_tokens": MAX_OUTPUT_TOKENS,
"stream": false,
"extra_body": {
"google": {
"model_safety_settings": {
"enabled": ENABLE_LLAMA_GUARD,
"llama_guard_settings": {}
}
}
}
}
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Respostas sinalizadas
Por padrão, o Llama Guard 3 8B é ativado em todas as previsões feitas com os modelos Llama 3.3 e Llama 3.1. Por padrão, a visão do Llama Guard 3 11B é ativada em todas as previsões feitas com os modelos Llama 3.2. O Llama Guard ajuda a proteger as respostas verificando entradas e saídas. Se o Llama Guard determinar que elas não são seguras, a resposta será sinalizada.
Se você quiser desativar o Llama Guard, modifique a configuração de segurança do modelo. Para mais informações, consulte o campo model_safety_settings no exemplo de streaming ou unário.
Usar o Vertex AI Studio
Para modelos Llama, use o Vertex AI Studio para criar protótipos e testar rapidamente modelos de IA generativa no console Google Cloud . Por exemplo, você pode usar o Vertex AI Studio para comparar as respostas do modelo Llama com outros modelos compatíveis, como o Gemini do Google.
Para mais informações, consulte Guia de início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade e cotas da região do modelo Llama
Para modelos Llama, aplica-se uma cota para cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).
| Modelo | Região | Cotas | Tamanho do contexto |
|---|---|---|---|
| Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524.288 | |
| Llama 4 Scout 17B-16E | |||
us-east5 |
|
1.310.720 | |
| Llama 3.3 70B | |||
us-central1 |
|
128.000 | |
| Llama 3.2 90B | |||
us-central1 |
|
128.000 | |
| Llama 3.1 405B | |||
us-central1 |
|
128.000 | |
| Llama 3.1 70B | |||
us-central1 |
|
128.000 | |
| Llama 3.1 8B | |||
us-central1 |
|
128.000 |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.