O Llama é uma coleção de modelos abertos desenvolvidos pela Meta que podem ser ajustados e implantados na Vertex AI. O Llama oferece modelos generativos de texto e multimodais pré-treinados e ajustados por instruções.
Llama 4
A família de modelos Llama 4 é uma coleção de modelos multimodais que usam a arquitetura Mixture-of-Experts (MoE). Ao usar a arquitetura MoE, modelos com contagens de parâmetros muito grandes podem ativar um subconjunto desses parâmetros para qualquer entrada, o que leva a inferências mais eficientes. Além disso, o Llama 4 usa a fusão antecipada, que integra informações de texto e visão dos estágios iniciais de processamento. Esse método permite que os modelos da Llama 4 entendam melhor as relações complexas e sutis entre texto e imagens. O Model Garden na Vertex AI oferece dois modelos Llama 4: Llama 4 Scout e Llama 4 Maverick.
Para mais informações, consulte o card de modelo Llama 4 no Model Garden ou confira a postagem de blog "Introdução ao Llama 4 na Vertex AI".
Llama 4 Maverick
O Llama 4 Maverick é o modelo mais amplo e avançado do Llama 4, oferecendo recursos líderes do setor em programação, raciocínio e comparativos de imagens. Ele tem 17 bilhões de parâmetros ativos de um total de 400 bilhões com 128 especialistas. O Llama 4 Maverick usa camadas alternadas de MoE e densas, em que cada token ativa um especialista compartilhado e um dos 128 especialistas roteados. É possível usar o modelo como um modelo pré-treinado (PT) ou ajustado por instruções (IT, na sigla em inglês) com suporte à FP8. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade com um pipeline pós-treinamento refinado.
O Llama 4 Maverick é multimodal e tem um comprimento de contexto de 1 milhão. Ele é adequado para legendas avançadas, análises, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de primeira linha.
Llama 4 Scout
O Llama 4 Scout oferece resultados de última geração para a classe de tamanho com uma janela de contexto de 10 milhões de tokens, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos de mercado. Ele tem 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais com 16 especialistas e está disponível como um modelo pré-treinado (PT, na sigla em inglês) ou ajustado por instrução (AI, na sigla em inglês). O Llama 4 Scout é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros de interação do usuário para personalização e raciocínio em grandes bases de código.
Llama 3.3
O Llama 3.3 é um modelo ajustado por instrução de 70B apenas para texto que oferece desempenho melhor em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos somente de texto. Além disso, para alguns aplicativos, o Llama 3.3 70B se aproxima do desempenho do Llama 3.1 405B.
Para mais informações, consulte o card de modelo Llama 3.3 no Model Garden.
Llama 3.2
O Llama 3.2 permite que os desenvolvedores criem e implantem os modelos de IA generativa mais recentes e aplicativos que usam os recursos do Llama para estimular novas inovações, como o raciocínio de imagem. O Llama 3.2 também foi projetado para ser mais acessível para aplicativos no dispositivo. A lista a seguir destaca os recursos do Llama 3.2:
- Oferece uma experiência de IA mais privada e personalizada, com processamento no dispositivo para modelos menores.
- Oferece modelos projetados para serem mais eficientes, com latência reduzida e desempenho aprimorado, tornando-os adequados para uma ampla gama de aplicativos.
- Criado com base no Llama Stack, que facilita a criação e a implantação de aplicativos. O Llama Stack é uma interface padronizada para criar componentes canônicos de conjunto de ferramentas e aplicativos de agentes.
- Suporte a tarefas de visão, com uma nova arquitetura de modelo que integra representações de codificador de imagem ao modelo de linguagem.
Os modelos 1B e 3B são modelos leves somente de texto que oferecem suporte a casos de uso no dispositivo, como recuperação de conhecimento local multilíngue, resumo e reescrita.
Os modelos Llama 11B e 90B são modelos multimodais pequenos e médios com raciocínio de imagens. Por exemplo, eles podem analisar dados visuais de gráficos para fornecer respostas mais precisas e extrair detalhes de imagens para gerar descrições de texto.
Para mais informações, consulte o card de modelo Llama 3.2 no Model Garden.
Considerações
Ao usar o 11B e o 90B, não há restrições ao enviar somente comandos de texto. No entanto, se você incluir uma imagem no comando, ela precisa estar no início do comando, e você só pode incluir uma imagem. Não é possível, por exemplo, incluir texto e uma imagem.
Llama 3.1
A coleção de modelos de linguagem grande (LLMs) multilíngues Llama 3.1 é composta por modelos generativos pré-treinados e ajustados por instrução em nos tamanhos 8B, 70B e 405B (entrada/saída de texto). Os modelos ajustados por instrução apenas para texto do Llama 3.1 (8B, 70B, 405B) são otimizados para casos de uso de diálogo multilíngue e, em comparativos de mercado comuns, superam muitos modelos de chat fechados e de código aberto disponíveis.
Para mais informações, consulte o card de modelo Llama 3.1 no Model Garden.
Llama 3
Os modelos ajustados por instrução do Llama 3 são uma coleção de LLMs otimizados para casos de uso de diálogos. Em comparativos de mercado comuns, os modelos do Llama 3 superam muitos modelos de chat de código aberto disponíveis.
Para mais informações, consulte o card de modelo Llama 3 no Model Garden.
Llama 2
Os LLMs do Llama 2 são uma coleção de textos generativos pré-treinados e ajustados com tamanhos que variam em parâmetros de 7B a 70B.
Para mais informações, consulte o card de modelo Llama 2 no Model Garden.
Code Llama
Os modelos Code Llama da Meta foram projetados para instrução, entendimento e síntese de código.
Para mais informações, consulte o card de modelo Código Llama no Model Garden.
Llama Guard 3
O Llama Guard 3 é baseado nos recursos do Llama Guard 2, adicionando três novas categorias: difamação, eleições e abuso de intérpretes de código. Além disso, esse modelo é multilíngue e tem um formato de comando consistente com os modelos de instrução do Llama 3 ou mais recentes.
Para mais informações, consulte o card de modelo Llama Guard no Model Garden.
Recursos
Para mais informações sobre o Model Garden, consulte Conhecer modelos de IA no Model Garden.