Modelos Llama totalmente geridos


Os modelos Llama no Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo Llama no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos Llama usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.

Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama disponíveis

Os seguintes modelos Llama estão disponíveis na Meta para utilização no Vertex AI. Para aceder a um modelo Llama, aceda ao respetivo cartão de modelo do Model Garden.

Os modelos que estão em Pré-visualização também têm a opção de implementação automática. Se precisar de um serviço pronto para produção, use os modelos Llama de implementação automática.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais capaz que oferece capacidades de programação, raciocínio e imagem. Apresenta uma arquitetura de mistura de especialistas (MoE) com 17 mil milhões de parâmetros ativos de um total de 400 mil milhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista partilhado, além de um dos 128 especialistas encaminhados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade através de um pipeline de pós-treino refinado.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendagem de imagens avançada, análise, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que requerem inteligência de nível superior e compreensão de imagens.

Considerações

  • Pode incluir um máximo de três imagens por pedido.
  • O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
  • As previsões em lote não são suportadas.

Aceda ao cartão do modelo Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, que superam as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. Apresenta uma arquitetura MoE com 17 mil milhões de parâmetros ativos dos 109 mil milhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de obtenção em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registos de interação do utilizador extensos para personalização e raciocinar em grandes bases de código.

Aceda ao cartão do modelo Llama 4

Considerações

  • Pode incluir um máximo de três imagens por pedido.
  • O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
  • As previsões em lote não são suportadas.

Aceda ao cartão do modelo Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70 mil milhões de parâmetros ajustado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto.

Aceda ao cartão do modelo Llama 3.3 70B

Durante o período de pré-visualização, é-lhe cobrado o valor à medida que usa o modelo (pagamento mediante utilização). Para preços de pagamento mediante utilização, consulte os preços do modelo Llama na página de preços do Vertex AI.

Llama 3.2

O Llama 3.2 permite que os programadores criem e implementem os modelos de IA generativa e as aplicações mais recentes que usam as capacidades mais recentes do Llama, como o raciocínio de imagens. O Llama 3.2 também foi concebido para ser mais acessível para aplicações no dispositivo.

Aceda ao cartão do modelo Llama 3.2 90B

Não existem custos durante o período de pré-visualização. Se precisar de um serviço pronto para produção, use os modelos Llama autoalojados.

Considerações

Quando usa o llama-3.2-90b-vision-instruct-maas, não existem restrições quando envia comandos apenas de texto. No entanto, se incluir uma imagem no comando, esta tem de estar no início do comando, e só pode incluir uma imagem. Por exemplo, não pode incluir algum texto e, em seguida, uma imagem.

Llama 3.1

O Llama 3.1 é um modelo de linguagem autorregressivo que usa uma arquitetura de transformador otimizada. As versões ajustadas usam o ajuste supervisionado (SFT) e a aprendizagem por reforço com feedback humano (ARFH) para se alinharem com as preferências humanas de utilidade e segurança.

O Llama 3.1 405B está disponível de forma geral. O custo é cobrado à medida que usa o modelo (pagamento mediante utilização). Para preços de pagamento conforme o uso, consulte os preços do modelo Llama na página de preços do Vertex AI.

Os outros modelos Llama 3.1 estão em pré-visualização. Não existem custos para os modelos de pré-visualização. Se precisar de um serviço pronto para produção, use os modelos Llama alojados por si.

Aceda ao cartão do modelo Llama 3.1

O que se segue?

Saiba como usar os modelos Llama.