O Llama é uma coleção de modelos abertos desenvolvidos pela Meta que pode otimizar e implementar no Vertex AI. O Llama oferece modelos de texto generativo e multimodal pré-preparados e otimizados para instruções.
Llama 4
A família de modelos Llama 4 é uma coleção de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE). Ao usar a arquitetura MoE, os modelos com um número muito elevado de parâmetros podem ativar um subconjunto desses parâmetros para qualquer entrada, o que leva a inferências mais eficientes. Além disso, o Llama 4 usa a fusão antecipada, que integra informações de texto e visão das fases de processamento iniciais. Este método permite que os modelos Llama 4 compreendam de forma mais eficaz as relações complexas e subtis entre texto e imagens. O Model Garden na Vertex AI oferece dois modelos Llama 4: Llama 4 Scout e Llama 4 Maverick.
Para mais informações, consulte o cartão do modelo Llama 4 no Model Garden ou veja a publicação no blogue Introducing Llama 4 on Vertex AI.
Llama 4 Maverick
O Llama 4 Maverick é o modelo Llama 4 maior e mais capaz, que oferece capacidades líderes da indústria em termos de programação, raciocínio e referências de imagens. Tem 17 mil milhões de parâmetros ativos de um total de 400 mil milhões de parâmetros com 128 especialistas. O Llama 4 Maverick usa camadas densas e MoE alternadas, em que cada token ativa um especialista partilhado, além de um dos 128 especialistas encaminhados. Pode usar o modelo como um modelo pré-preparado (PT) ou um modelo preparado com instruções (IT) com suporte de FP8. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade através de um pipeline de pós-treino refinado.
O Llama 4 Maverick é multimodal e tem um comprimento de contexto de 1 milhão de tokens. É adequado para legendagem de imagens avançada, análise, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que requerem inteligência de nível superior e compreensão de imagens.
Llama 4 Scout
O Llama 4 Scout oferece resultados de vanguarda para a sua classe de tamanho com uma grande capacidade de resposta de 10 milhões de tokens, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. Tem 17 mil milhões de parâmetros ativos dos 109 mil milhões de parâmetros totais com 16 especialistas e está disponível como um modelo pré-treinado (PT) ou ajustado por instruções (IT). O Llama 4 Scout é adequado para tarefas de obtenção em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registos de interação do utilizador extensos para personalização e raciocínio em grandes bases de código.
Llama 3.3
O Llama 3.3 é um modelo de 70 mil milhões de parâmetros ajustado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B.
Para mais informações, consulte o cartão do modelo Llama 3.3 no Model Garden.
Llama 3.2
O Llama 3.2 permite que os programadores criem e implementem os mais recentes modelos de IA generativa e aplicações que usam as capacidades do Llama para impulsionar novas inovações, como o raciocínio de imagens. O Llama 3.2 também foi concebido para ser mais acessível para aplicações no dispositivo. A lista seguinte realça as funcionalidades do Llama 3.2:
- Oferece uma experiência de IA mais privada e personalizada, com processamento no dispositivo para modelos mais pequenos.
- Oferece modelos concebidos para serem mais eficientes, com latência reduzida e desempenho melhorado, o que os torna adequados para uma vasta gama de aplicações.
- Criado com base na Llama Stack, o que facilita a criação e a implementação de aplicações. O Llama Stack é uma interface padronizada para criar componentes de cadeia de ferramentas canónicos e aplicações de agentes.
- Suporta tarefas de visão, com uma nova arquitetura de modelo que integra representações do codificador de imagens no modelo de linguagem.
Os modelos 1B e 3B são modelos leves apenas de texto que suportam exemplos de utilização no dispositivo, como a obtenção de conhecimentos locais multilingues, a geração de resumos e a reescrita.
Os modelos Llama 11B e 90B são modelos multimodais de tamanho pequeno e médio com raciocínio de imagens. Por exemplo, podem analisar dados visuais de gráficos para fornecer respostas mais precisas e extrair detalhes de imagens para gerar descrições de texto.
Para mais informações, consulte o cartão do modelo Llama 3.2 no Model Garden.
Considerações
Quando usa os modelos 11B e 90B, não existem restrições quando envia comandos apenas de texto. No entanto, se incluir uma imagem no comando, esta tem de estar no início do comando, e só pode incluir uma imagem. Por exemplo, não pode incluir algum texto e, em seguida, uma imagem.
Llama 3.1
A coleção Llama 3.1 de modelos de linguagem (conteúdo extenso) (MDIs/CEs) multilingues é uma coleção de modelos generativos pré-preparados e otimizados para instruções nos tamanhos 8B, 70B e 405B (texto de entrada/texto de saída). Os modelos apenas de texto preparados com instruções do Llama 3.1 (8B, 70B e 405B) estão otimizados para exemplos de utilização de diálogo multilingue e superam o desempenho de muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria.
Para mais informações, consulte o cartão do modelo Llama 3.1 no Model Garden.
Llama 3
Os modelos ajustados por instruções do Llama 3 são uma coleção de GMLs otimizados para exemplos de utilização de diálogo. Os modelos Llama 3 superam muitos dos modelos de chat de código aberto disponíveis em referências comuns da indústria.
Para mais informações, consulte o cartão do modelo Llama 3 no Model Garden.
Llama 2
Os GMLs Llama 2 são uma coleção de modelos de texto generativo pré-preparados e otimizados, com tamanhos que variam entre 7 mil milhões e 70 mil milhões de parâmetros.
Para mais informações, consulte o cartão do modelo Llama 2 no Model Garden.
Code Llama
Os modelos Code Llama da Meta foram concebidos para a síntese, compreensão e instruções de código.
Para mais informações, consulte a ficha do modelo Code Llama no Model Garden.
Llama Guard 3
O Llama Guard 3 baseia-se nas capacidades do Llama Guard 2, adicionando três novas categorias: difamação, eleições e abuso do intérprete de código. Além disso, este modelo é multilingue e tem um formato de comando consistente com os modelos de instruções do Llama 3 ou posterior.
Para mais informações, consulte a ficha do modelo Llama Guard no Model Garden.
Recursos
Para mais informações sobre o Model Garden, consulte o artigo Explore modelos de IA no Model Garden.