Esta página foi traduzida pela API Cloud Translation.

Peça previsões do Llama

Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:

Para o Llama 4 Maverick 17B-128E, use llama-4-maverick-17b-128e-instruct-maas
Para o Llama 4 Scout 17B-16E, use llama-4-scout-17b-16e-instruct-maas
Para o Llama 3.3 70B, use llama-3.3-70b-instruct-maas
Para o Llama 3.2 90B, use llama-3.2-90b-vision-instruct-maas
Para o Llama 3.1 405B, use llama-3.1-405b-instruct-maas
Para o Llama 3.1 70B, use llama-3.1-70b-instruct-maas
Para o Llama 3.1 8B, use llama-3.1-8b-instruct-maas

Para saber como fazer chamadas de streaming e não streaming para os modelos Llama, consulte o artigo Chame APIs MaaS para modelos abertos.

Antes de começar

Para usar os modelos Llama com o Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:

Faça uma chamada de streaming para um modelo Llama

O exemplo seguinte faz uma chamada de streaming a um modelo Llama.

REST

Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

LOCATION: Uma região que suporta modelos Llama.
MODEL: o nome do modelo que quer usar.
ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
ENABLE_LLAMA_GUARD: Um valor booleano que especifica se deve ativar o Llama Guard nas suas entradas e saídas. Por predefinição, o Llama Guard está ativado e denuncia respostas se determinar que são inseguras.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON do pedido:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Para enviar o seu pedido, escolha uma destas opções:

curl

Nota: O comando seguinte pressupõe que tem sessão iniciada na CLI gcloud com a sua conta de utilizador executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que inicia automaticamente sessão na CLI gcloud. Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Nota: O comando seguinte pressupõe que iniciou sessão na CLI do Google Cloud com a sua conta de utilizador executando gcloud init ou gcloud auth login .gcloud Pode verificar a conta atualmente ativa executando o comando gcloud auth list.

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte.

Resposta

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Faça uma chamada unária a um modelo Llama

O exemplo seguinte faz uma chamada unária a um modelo Llama.

REST

Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

LOCATION: Uma região que suporta modelos Llama.
MODEL: o nome do modelo que quer usar.
ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
ENABLE_LLAMA_GUARD: Um valor booleano que especifica se deve ativar o Llama Guard nas suas entradas e saídas. Por predefinição, o Llama Guard está ativado e denuncia respostas se determinar que são inseguras.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Corpo JSON do pedido:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Para enviar o seu pedido, escolha uma destas opções:

curl

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte.

Resposta

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Respostas denunciadas

Por predefinição, o Llama Guard 3 8B está ativado em todas as previsões que fizer com os modelos Llama 3.3 e Llama 3.1. Por predefinição, a visão do Llama Guard 3 11B está ativada em todas as previsões que fizer com os modelos Llama 3.2. O Llama Guard ajuda a salvaguardar as respostas verificando as entradas e as saídas. Se o Llama Guard determinar que são inseguras, marca a resposta.

Se quiser desativar o Llama Guard, modifique a definição de segurança do modelo. Para mais informações, consulte o campo model_safety_settings no exemplo de streaming ou unário.

Use o Vertex AI Studio

Para os modelos Llama, pode usar o Vertex AI Studio para criar protótipos rapidamente e testar modelos de IA generativa na Google Cloud consola. Por exemplo, pode usar o Vertex AI Studio para comparar as respostas do modelo Llama com outros modelos suportados, como o Gemini da Google.

Para mais informações, consulte o artigo Início rápido: envie comandos de texto para o Gemini usando o Vertex AI Studio.

Disponibilidade regional e quotas do modelo Llama

Para os modelos Llama, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).

Modelo	Região	Quotas	Comprimento do contexto
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`		524 288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`		1 310 720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 100	128 000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30	128 000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60	128 000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60	128 000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60	128 000

Se quiser aumentar alguma das suas quotas para a IA generativa no Vertex AI, pode usar a Google Cloud consola para pedir um aumento da quota. Para saber mais sobre as cotas, consulte a vista geral das cotas do Google Cloud.