Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:
- Para o Llama 4 Maverick 17B-128E, use
llama-4-maverick-17b-128e-instruct-maas
- Para o Llama 4 Scout 17B-16E, use
llama-4-scout-17b-16e-instruct-maas
- Para o Llama 3.3 70B, use
llama-3.3-70b-instruct-maas
- Para o Llama 3.2 90B, use
llama-3.2-90b-vision-instruct-maas
- Para o Llama 3.1 405B, use
llama-3.1-405b-instruct-maas
- Para o Llama 3.1 70B, use
llama-3.1-70b-instruct-maas
- Para o Llama 3.1 8B, use
llama-3.1-8b-instruct-maas
Antes de começar
Para usar os modelos Llama com o Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com
) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:
- LOCATION: Uma região que suporta modelos Llama.
- MODEL: o nome do modelo que quer usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos funcionam com turnos alternados deuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - CONTENT: O conteúdo, como o texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que podem ser gerados na resposta. Um token tem
aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
- STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - ENABLE_LLAMA_GUARD: Um valor booleano que especifica se deve ativar o Llama Guard nas suas entradas e saídas. Por predefinição, o Llama Guard está ativado e sinaliza as respostas se determinar que são inseguras.
- LOCATION: Uma região que suporta modelos Llama.
- MODEL: o nome do modelo que quer usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos funcionam com turnos alternados deuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - CONTENT: O conteúdo, como o texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que podem ser gerados na resposta. Um token tem
aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
- STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - ENABLE_LLAMA_GUARD: Um valor booleano que especifica se deve ativar o Llama Guard nas suas entradas e saídas. Por predefinição, o Llama Guard está ativado e sinaliza as respostas se determinar que são inseguras.
- QPM: 120
- QPM: 120
- QPM: 100
- QPM: 30
- QPM: 60
- QPM: 60
- QPM: 60
Faça uma chamada de streaming para um modelo Llama
O exemplo seguinte faz uma chamada de streaming a um modelo Llama.
REST
Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON do pedido:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Faça uma chamada unária a um modelo Llama
O exemplo seguinte faz uma chamada unária a um modelo Llama.
REST
Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON do pedido:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Respostas denunciadas
Por predefinição, o Llama Guard 3 8B está ativado em todas as previsões que fizer com os modelos Llama 3.3 e Llama 3.1. Por predefinição, a visão do Llama Guard 3 11B está ativada em todas as previsões que fizer com os modelos Llama 3.2. O Llama Guard ajuda a salvaguardar as respostas verificando as entradas e as saídas. Se o Llama Guard determinar que são inseguras, marca a resposta.
Se quiser desativar o Llama Guard, modifique a definição de segurança do modelo. Para mais
informações, consulte o campo model_safety_settings
no exemplo de
streaming ou unário.
Use o Vertex AI Studio
Para os modelos Llama, pode usar o Vertex AI Studio para criar protótipos rapidamente e testar modelos de IA generativa na Google Cloud consola. Por exemplo, pode usar o Vertex AI Studio para comparar as respostas do modelo Llama com outros modelos suportados, como o Gemini da Google.
Para mais informações, consulte o artigo Início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.
Disponibilidade regional e quotas do modelo Llama
Para os modelos Llama, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).
Modelo | Região | Quotas | Comprimento do contexto |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524 288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1 310 720 | |
Llama 3.3 70B | |||
us-central1 |
|
128 000 | |
Llama 3.2 90B | |||
us-central1 |
|
128 000 | |
Llama 3.1 405B | |||
us-central1 |
|
128 000 | |
Llama 3.1 70B | |||
us-central1 |
|
128 000 | |
Llama 3.1 8B | |||
us-central1 |
|
128 000 |
Se quiser aumentar alguma das suas quotas para a IA generativa na Vertex AI, pode usar a consola para pedir um aumento da quota. Google Cloud Para saber mais sobre as quotas, consulte o artigo Trabalhe com quotas.