Modelos abertos da Vertex AI para MaaS

A Vertex AI oferece suporte a uma lista selecionada de modelos abertos como modelos gerenciados. Esses modelos abertos podem ser usados com a Vertex AI como modelo como serviço (MaaS) e são oferecidos como uma API gerenciada. Ao usar um modelo aberto gerenciado, você continua enviando solicitações para endpoints da Vertex AI. Os modelos abertos gerenciados não têm servidor, então não é necessário provisionar nem gerenciar a infraestrutura.

Os modelos abertos gerenciados podem ser descobertos usando o Model Garden. Também é possível implantar modelos usando o Model Garden. Para mais informações, consulte Conhecer modelos de IA no Model Garden.

Modelos abertos

Os seguintes modelos abertos são oferecidos como APIs gerenciadas no Model Garden da Vertex AI (MaaS):

Nome do modelo Modalidade Descrição Guia de início rápido
gpt-oss 120B Idioma Um modelo de 120 bilhões de parâmetros que oferece alto desempenho em tarefas de raciocínio. Card de modelo
gpt-oss 20B Idioma Um modelo de 20 bilhões de parâmetros otimizado para eficiência e implantação em hardware de consumo e de borda. Card de modelo
Qwen3-Next-80B Thinking Idioma, código Um modelo da família Qwen3-Next, especializado em resolução de problemas complexos e raciocínio profundo. Card de modelo
Qwen3-Next-80B Instruct Idioma, código Um modelo da família Qwen3-Next, especializado em seguir comandos específicos. Card de modelo
Qwen3 Coder Idioma, código Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software. Card de modelo
Qwen3 235B Idioma Um modelo de peso aberto com capacidade de "pensamento híbrido" para alternar entre raciocínio metódico e conversa rápida. Card de modelo
DeepSeek-V3.1 Idioma Modelo híbrido da DeepSeek que oferece suporte ao modo de pensamento e ao modo sem pensamento. Card de modelo
DeepSeek R1 (0528) Idioma A versão mais recente do modelo DeepSeek R1. Card de modelo
Llama 4 Maverick 17B-128E Linguagem, visão O maior e mais eficiente modelo Llama 4 com recursos de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. Card de modelo
Llama 4 Scout 17B-16E Linguagem, visão O Llama 4 Scout 17B-16E oferece resultados de ponta para a classe de tamanho dele, superando gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. Card de modelo
Llama 3.3 Idioma O Llama 3.3 é um modelo de 70B ajustado por instrução somente de texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos somente de texto. Além disso, para alguns aplicativos, o Llama 3.3 70B se aproxima da performance do Llama 3.1 405B. Card de modelo
Llama 3.2 (prévia) Linguagem, visão Um modelo multimodal de 90B de tamanho médio que dá suporte ao raciocínio de imagem, como análise de gráficos e legendas de imagens. Card de modelo
Llama 3.1 Idioma

Uma coleção de LLMs multilíngues otimizados para casos de uso de diálogo multilíngue, que superam muitos dos modelos de chat fechados e de código aberto em comparativos de mercado comuns.

O Llama 3.1 405B está em disponibilidade geral (GA).

O Llama 3.1 8B e o Llama 3.1 70B estão em pré-lançamento.

Card de modelo

Os seguintes modelos de incorporação aberta são oferecidos como APIs gerenciadas no Model Garden da Vertex AI (MaaS):

Nome do modelo Descrição Dimensões de saída Comprimento máximo da sequência Idiomas de texto compatíveis Guia de início rápido
multilingual-e5-small Faz parte da família E5 de modelos de embedding de texto. A variante pequena contém 12 camadas. Até 384 512 tokens Idiomas disponíveis Card de modelo
multilingual-e5-large Faz parte da família E5 de modelos de embedding de texto. A variante grande tem 24 camadas. Até 1.024 512 tokens Idiomas disponíveis Card de modelo

Endpoints regionais e globais

Para endpoints regionais, as solicitações são atendidas na região especificada. Em casos em que você tem requisitos de residência de dados ou se um modelo não oferece suporte ao endpoint global, use os endpoints regionais.

Ao usar o endpoint global, o Google pode processar e atender suas solicitações em qualquer região compatível com o modelo que você está usando. Isso pode resultar em maior latência em alguns casos. O endpoint global ajuda a melhorar a disponibilidade geral e reduzir erros.

Não há diferença de preço com os endpoints regionais ao usar o endpoint global. No entanto, as cotas de endpoint global e os recursos de modelo compatíveis podem ser diferentes dos endpoints regionais. Para mais informações, consulte a página do modelo de terceiros relacionada.

Especifique o endpoint global

Para usar o endpoint global, defina a região como global.

Por exemplo, o URL de solicitação de um comando curl usa o seguinte formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Para o SDK da Vertex AI, um endpoint regional é o padrão. Defina a região como GLOBAL para usar o endpoint global.

Restringir o uso de endpoints de API globais

Para ajudar na aplicação do uso de endpoints regionais, utilize a restrição de política da organização constraints/gcp.restrictEndpointUsage para bloquear solicitações ao endpoint da API global. Para mais informações, consulte Restringir o uso de endpoints.

Conceder acesso de usuário a modelos abertos

Para ativar os modelos abertos e fazer uma solicitação de comando, um administrador do Google Cloud precisa definir as permissões necessárias e verificar se a política da organização permite o uso das APIs necessárias.

Definir as permissões necessárias para usar modelos abertos

Os seguintes papéis e permissões são necessários para usar modelos abertos:

  • É necessário ter o papel de Gerente de direito de compra do consumidor do Identity and Access Management (IAM). Qualquer pessoa que tenha esse papel pode ativar modelos abertos no Model Garden.

  • Você precisa ter a permissão aiplatform.endpoints.predict. Essa permissão está incluída no papel de IAM de usuário da Vertex AI. Para mais informações, consulte Usuário da Vertex AI e Controle de acesso.

Console

  1. Para conceder os papéis de IAM do Gerente de direito de compra do consumidor a um usuário, acesse a página IAM.

    Acessar IAM

  2. Na coluna Principal, encontre a principal do usuário cujo acesso aos modelos abertos você quer ativar e clique em . Edite a principal nessa linha.

  3. No painel Editar acesso, clique em Adicionar novo papel.

  4. Em Selecionar uma função, escolha Gerente de direito de compra do consumidor.

  5. No painel Editar acesso, clique em Adicionar outro papel.

  6. Em Selecionar um papel, escolha Usuário da Vertex AI.

  7. Clique em Salvar.

gcloud

  1. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

  2. Conceda o papel de gerente de direito de compra do consumidor necessário para ativar os modelos abertos no Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Conceda o papel de usuário da Vertex AI que inclui a permissão aiplatform.endpoints.predict, necessária para fazer solicitações de comando:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Substitua PRINCIPAL pelo identificador do principal. O identificador tem o formato user|group|serviceAccount:email ou domain:domain, por exemplo, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com ou domain:example.domain.com.

    A saída é uma lista de vinculações de política que inclui o seguinte:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Para mais informações, consulte Conceder um único papel e gcloud projects add-iam-policy-binding.

Definir a política da organização para o acesso ao modelo aberto

Para ativar os modelos abertos, a política da organização precisa permitir a seguinte API: API Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com

Se a organização definir uma política para restringir o uso do serviço, um administrador da organização precisará verificar se cloudcommerceconsumerprocurement.googleapis.com é permitido ao definir a política da organização.

Além disso, se você tiver uma política da organização que restringe o uso de modelos no Model Garden, ela precisará permitir o acesso aos modelos abertos. Para mais informações, consulte Controlar o acesso ao modelo.

Conformidade regulamentar de modelos abertos

As certificações da IA generativa na Vertex AI continuam válidas quando modelos abertos são usados como uma API gerenciada com a Vertex AI. Se você precisar de detalhes sobre os modelos, mais informações podem ser encontradas no card de modelo respectivo ou entre em contato com o editor do modelo.

Seus dados são armazenados em repouso na região ou multirregião selecionada para modelos abertos na Vertex AI, mas a regionalização do tratamento de dados pode variar. Para uma lista detalhada dos compromissos de tratamento de dados dos modelos abertos, consulte Residência de dados para modelos abertos.

Os comandos do cliente e as respostas do modelo não são compartilhados com terceiros ao usar a API Vertex AI, incluindo modelos abertos. O Google só trata os dados do cliente conforme instruído por ele, o que é descrito no Aditivo sobre tratamento de dados do Cloud.