Os modelos Llama no Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo Llama no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos Llama usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.
Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos Llama disponíveis
Os seguintes modelos Llama estão disponíveis na Meta para utilização no Vertex AI. Para aceder a um modelo Llama, aceda ao respetivo cartão de modelo do Model Garden.
Os modelos que estão em Pré-visualização também têm a opção de implementação automática. Se precisar de um serviço pronto para produção, use os modelos Llama de implementação automática.
Llama 4 Maverick 17B-128E
O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais capaz que oferece capacidades de programação, raciocínio e imagem. Apresenta uma arquitetura de mistura de especialistas (MoE) com 17 mil milhões de parâmetros ativos de um total de 400 mil milhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista partilhado, além de um dos 128 especialistas encaminhados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade através de um pipeline de pós-treino refinado.
O Llama 4 Maverick 17B-128E é multimodal e adequado para legendagem de imagens avançada, análise, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que requerem inteligência de nível superior e compreensão de imagens.
Considerações
- Pode incluir um máximo de três imagens por pedido.
- O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
- As previsões em lote não são suportadas.
Aceda ao cartão do modelo Llama 4
Llama 4 Scout 17B-16E
O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, que superam as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. Apresenta uma arquitetura MoE com 17 mil milhões de parâmetros ativos dos 109 mil milhões de parâmetros totais e 16 especialistas.
O Llama 4 Scout 17B-16E é adequado para tarefas de obtenção em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registos de interação do utilizador extensos para personalização e raciocinar em grandes bases de código.
Aceda ao cartão do modelo Llama 4
Considerações
- Pode incluir um máximo de três imagens por pedido.
- O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
- As previsões em lote não são suportadas.
Aceda ao cartão do modelo Llama 4
Llama 3.3
O Llama 3.3 é um modelo de 70 mil milhões de parâmetros ajustado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto.
Aceda ao cartão do modelo Llama 3.3 70B
Durante o período de pré-visualização, é-lhe cobrado o valor à medida que usa o modelo (pagamento mediante utilização). Para preços de pagamento mediante utilização, consulte os preços do modelo Llama na página de preços do Vertex AI.
Llama 3.2
O Llama 3.2 permite que os programadores criem e implementem os modelos de IA generativa e as aplicações mais recentes que usam as capacidades mais recentes do Llama, como o raciocínio de imagens. O Llama 3.2 também foi concebido para ser mais acessível para aplicações no dispositivo.
Aceda ao cartão do modelo Llama 3.2 90B
Não existem custos durante o período de pré-visualização. Se precisar de um serviço pronto para produção, use os modelos Llama autoalojados.
Considerações
Quando usa o llama-3.2-90b-vision-instruct-maas
, não existem restrições quando envia comandos apenas de texto. No entanto, se incluir uma imagem no comando, esta tem de estar no início do comando, e só pode incluir uma imagem. Por exemplo, não pode incluir algum texto e, em seguida, uma imagem.
Llama 3.1
O Llama 3.1 é um modelo de linguagem autorregressivo que usa uma arquitetura de transformador otimizada. As versões ajustadas usam o ajuste supervisionado (SFT) e a aprendizagem por reforço com feedback humano (ARFH) para se alinharem com as preferências humanas de utilidade e segurança.
O Llama 3.1 405B está disponível de forma geral. O custo é cobrado à medida que usa o modelo (pagamento mediante utilização). Para preços de pagamento conforme o uso, consulte os preços do modelo Llama na página de preços do Vertex AI.
Os outros modelos Llama 3.1 estão em pré-visualização. Não existem custos para os modelos de pré-visualização. Se precisar de um serviço pronto para produção, use os modelos Llama alojados por si.
Aceda ao cartão do modelo Llama 3.1
O que se segue?
Saiba como usar os modelos Llama.