Modelos abertos do Vertex AI para MaaS

O Vertex AI suporta uma lista organizada de modelos abertos como modelos geridos. Estes modelos abertos podem ser usados com o Vertex AI como um modelo como um serviço (MaaS) e são oferecidos como uma API gerida. Quando usa um modelo aberto gerido, continua a enviar os seus pedidos para os pontos finais da Vertex AI. Os modelos abertos geridos são sem servidor, pelo que não tem de aprovisionar nem gerir infraestrutura.

Os modelos abertos geridos podem ser descobertos através do Model Garden. Também pode implementar modelos através do Model Garden. Para mais informações, consulte o artigo Explore modelos de IA no Model Garden.

Abrir modelos

Os seguintes modelos abertos são oferecidos como APIs geridas no Vertex AI Model Garden (MaaS):

Nome do modelo Modalidade Descrição Início rápido
gpt-oss 120B Idioma Um modelo de 120 B que oferece um elevado desempenho em tarefas de raciocínio. Cartão do modelo
gpt-oss 20B Idioma Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico. Cartão do modelo
Qwen3-Next-80B Thinking Idioma, código Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo. Cartão do modelo
Qwen3-Next-80B Instruct Idioma, código Um modelo da família de modelos Qwen3-Next, especializado para seguir comandos específicos. Cartão do modelo
Qwen3 Coder Idioma, código Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software. Cartão do modelo
Qwen3 235B Idioma Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida. Cartão do modelo
DeepSeek-V3.1 Idioma O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão. Cartão do modelo
DeepSeek R1 (0528) Idioma A versão mais recente do modelo DeepSeek R1 da DeepSeek. Cartão do modelo
Llama 4 Maverick 17B-128E Idioma, visão O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. Cartão do modelo
Llama 4 Scout 17B-16E Idioma, visão O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. Cartão do modelo
Llama 3.3 Idioma O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B. Cartão do modelo
Llama 3.2 (pré-visualização) Idioma, visão Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de tabelas e gráficos, bem como a geração de legendas de imagens. Cartão do modelo
Llama 3.1 Idioma

Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria.

O Llama 3.1 405B está disponível de forma geral (DG).

O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização.

Cartão do modelo

Os seguintes modelos de incorporação abertos são oferecidos como APIs geridas no Vertex AI Model Garden (MaaS):

Nome do modelo Descrição Dimensões de saída Duração máxima da sequência Idiomas de texto suportados Início rápido
multilingual-e5-small Parte da família de modelos de incorporação de texto E5. A variante pequena contém 12 camadas. Até 384 512 tokens Idiomas suportados Cartão do modelo
multilingual-e5-large Parte da família de modelos de incorporação de texto E5. A variante grande contém 24 camadas. Até 1024 512 tokens Idiomas suportados Cartão do modelo

Pontos finais regionais e globais

Para pontos finais regionais, os pedidos são processados a partir da região especificada. Nos casos em que tem requisitos de residência de dados ou se um modelo não suportar o ponto final global, use os pontos finais regionais.

Quando usa o ponto final global, a Google pode processar e responder aos seus pedidos a partir de qualquer região suportada pelo modelo que está a usar. Isto pode resultar numa latência mais elevada em alguns casos. O ponto final global ajuda a melhorar a disponibilidade geral e a reduzir os erros.

Não existe diferença de preço com os pontos finais regionais quando usa o ponto final global. No entanto, as quotas de pontos finais globais e as capacidades do modelo suportadas podem diferir dos pontos finais regionais. Para mais informações, consulte a página do modelo de terceiros relacionado.

Especifique o ponto final global

Para usar o ponto final global, defina a região como global.

Por exemplo, o URL de pedido de um comando curl usa o seguinte formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Para o SDK Vertex AI, um ponto final regional é a predefinição. Defina a região para GLOBAL para usar o ponto final global.

Restrinja a utilização do ponto final da API global

Para ajudar a aplicar a utilização de pontos finais regionais, use a restrição da política da organização constraints/gcp.restrictEndpointUsage para bloquear pedidos ao ponto final da API global. Para mais informações, consulte o artigo Restringir a utilização de pontos finais.

Conceda acesso de utilizador a modelos abertos

Para poder ativar modelos abertos e fazer um pedido de comando, um Google Cloud administrador tem de definir as autorizações necessárias e verificar se a política da organização permite a utilização das APIs necessárias.

Defina as autorizações necessárias para usar modelos abertos

As seguintes funções e autorizações são necessárias para usar modelos abertos:

  • Tem de ter a função de gestão de identidade e de acesso (IAM) do gestor de autorizações de aprovisionamento de consumidor. Qualquer pessoa a quem tenha sido concedida esta função pode ativar modelos abertos no Model Garden.

  • Tem de ter a autorização aiplatform.endpoints.predict. Esta autorização está incluída na função IAM de utilizador do Vertex AI. Para mais informações, consulte os artigos Utilizador do Vertex AI e Controlo de acesso.

Consola

  1. Para conceder as funções do IAM do gestor de autorizações de aprovisionamento do consumidor a um utilizador, aceda à página IAM.

    Aceda ao IAM

  2. Na coluna Principal, encontre o utilizador principal para o qual quer ativar o acesso a modelos abertos e, de seguida, clique em Editar principal nessa linha.

  3. No painel Editar acesso, clique em Adicionar outra função.

  4. Em Selecionar uma função, selecione Gestor de autorizações de aprovisionamento de consumidores.

  5. No painel Editar acesso, clique em Adicionar outra função.

  6. Em Selecionar uma função, selecione Utilizador da Vertex AI.

  7. Clique em Guardar.

gcloud

  1. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

  2. Conceda a função Consumer Procurement Entitlement Manager necessária para ativar modelos abertos no Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Conceda a função de utilizador do Vertex AI que inclui a autorização aiplatform.endpoints.predict, necessária para fazer pedidos de comandos:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Substitua PRINCIPAL pelo identificador do principal. O identificador assume a forma user|group|serviceAccount:email ou domain:domain. Por exemplo, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com ou domain:example.domain.com.

    A saída é uma lista de associações de políticas que inclui o seguinte:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Para mais informações, consulte os artigos Conceda uma única função e gcloud projects add-iam-policy-binding.

Defina a política da organização para o acesso a modelos abertos

Para ativar os modelos abertos, a política da sua organização tem de permitir a seguinte API: API Cloud Commerce Consumer Procurement – cloudcommerceconsumerprocurement.googleapis.com

Se a sua organização definir uma política da organização para restringir a utilização do serviço, um administrador da organização tem de verificar se o cloudcommerceconsumerprocurement.googleapis.com é permitido definindo a política da organização.

Além disso, se tiver uma política organizacional que restrinja a utilização de modelos no Model Garden, a política tem de permitir o acesso a modelos abertos. Para mais informações, consulte o artigo Controle o acesso ao modelo.

Conformidade regulamentar do modelo aberto

As certificações para a IA generativa no Vertex AI continuam a aplicar-se quando os modelos abertos são usados como uma API gerida através do Vertex AI. Se precisar de detalhes sobre os próprios modelos, pode encontrar informações adicionais no cartão do modelo respetivo ou contactar o publicador do modelo respetivo.

Os seus dados são armazenados em repouso na região ou multirregião selecionada para modelos abertos na Vertex AI, mas a regionalização do tratamento de dados pode variar. Para uma lista detalhada dos compromissos de processamento de dados dos modelos abertos, consulte o artigo Residência de dados para modelos abertos.

Os comandos do cliente e as respostas do modelo não são partilhados com terceiros quando usa a API Vertex AI, incluindo modelos abertos. A Google apenas processa os dados de clientes conforme as instruções do cliente, o que é descrito em detalhe na nossa Alteração ao Tratamento de Dados do Cloud.