Modèles Llama à déployer soi-même

Llama est un ensemble de modèles ouverts développés par Meta que vous pouvez ajuster et déployer sur Vertex AI. Llama propose des modèles de texte génératif et multimodaux pré-entraînés et adaptés aux instructions.

Llama 4

La famille de modèles Llama 4 est un ensemble de modèles multimodaux qui utilisent l'architecture de mélange d'experts (MoE, Mixture of Experts). En utilisant l'architecture MoE, les modèles avec un nombre très élevé de paramètres peuvent activer un sous-ensemble de ces paramètres pour toute entrée donnée, ce qui permet d'obtenir des inférences plus efficaces. De plus, Llama 4 utilise la fusion précoce, qui intègre les informations textuelles et visuelles à partir des étapes de traitement initiales. Cette méthode permet aux modèles Llama 4 de saisir plus efficacement les relations complexes et nuancées entre le texte et les images. Model Garden sur Vertex AI propose deux modèles Llama 4: Llama 4 Scout et Llama 4 Maverick.

Pour en savoir plus, consultez la fiche de modèle Llama 4 dans Model Garden ou le post de blog "Présentation de Llama 4 sur Vertex AI".

Llama 4 Maverick

Llama 4 Maverick est le modèle Llama 4 le plus grand et le plus performant. Il offre des fonctionnalités de pointe en matière de codage, de raisonnement et de benchmarks d'images. Il compte 17 milliards de paramètres actifs sur 400 milliards au total, avec 128 experts. Llama 4 Maverick utilise des couches denses et MoE alternées, où chaque jeton active un expert partagé et l'un des 128 experts routés. Vous pouvez utiliser le modèle en tant que modèle pré-entraîné (PT) ou modèle réglé en suivant les instructions (IT) avec prise en charge de FP8. Le modèle est pré-entraîné dans 200 langues et optimisé pour des interactions de chat de haute qualité grâce à un pipeline post-entraînement affiné.

Llama 4 Maverick est multimodal et a une longueur de contexte de 1 million. Il est adapté à la création de sous-titres avancés, à l'analyse, à la compréhension précise des images, aux questions/réponses visuelles, à la génération de texte créative, aux assistants d'IA à usage général et aux chatbots sophistiqués nécessitant une intelligence et une compréhension des images de premier ordre.

Llama 4 Scout

Llama 4 Scout offre des résultats de pointe pour sa catégorie de taille avec une grande fenêtre de contexte de 10 millions de jetons, surpassant les générations précédentes de Llama et d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Il comporte 17 milliards de paramètres actifs sur 109 milliards au total avec 16 experts et est disponible en tant que modèle pré-entraîné (PT) ou affiné par instruction (IT). Llama 4 Scout est adapté aux tâches de récupération dans des contextes longs et aux tâches qui nécessitent de raisonner sur de grandes quantités d'informations, telles que la synthèse de plusieurs documents volumineux, l'analyse de journaux d'interactions utilisateur étendus pour la personnalisation et le raisonnement dans de grands codebases.

Llama 3.3

Llama 3.3 est un modèle de texte uniquement adapté aux instructions de 70 milliards de paramètres qui offre des performances améliorées par rapport à Llama 3.1 70 milliards de paramètres et à Llama 3.2 90 milliards de paramètres lorsqu'il est utilisé pour des applications de texte uniquement. De plus, pour certaines applications, Llama 3.3 70B se rapproche des performances de Llama 3.1 405B.

Pour en savoir plus, consultez la fiche de modèle Llama 3.3 dans Model Garden.

Llama 3.2

Llama 3.2 permet aux développeurs de créer et de déployer les derniers modèles et applications d'IA générative qui utilisent les fonctionnalités de Llama pour susciter de nouvelles innovations, comme le raisonnement sur les images. Llama 3.2 est également conçu pour être plus accessible aux applications sur l'appareil. La liste suivante décrit les fonctionnalités de Llama 3.2 :

  • Offre une expérience d'IA plus privée et personnalisée, avec un traitement sur l'appareil pour les modèles plus petits.
  • Offre des modèles conçus pour être plus efficaces, avec une latence réduite et des performances améliorées, ce qui les rend adaptés à un large éventail d'applications.
  • Basé sur Llama Stack, qui facilite la création et le déploiement d'applications. Llama Stack est une interface standardisée permettant de créer des composants de chaîne d'outils et des applications agentives canoniques.
  • Prend en charge les tâches de vision, avec une nouvelle architecture de modèle qui intègre les représentations d'encodeurs d'images dans le modèle de langage.

Les modèles 1B et 3B sont des modèles légers de texte uniquement qui prennent en charge les cas d'utilisation sur l'appareil, tels que la récupération de connaissances locales multilingues, la synthèse et la réécriture.

Les modèles Llama 11B et 90B sont des modèles multimodaux de petite et moyenne taille avec raisonnement par image. Par exemple, ils peuvent analyser les données visuelles des graphiques pour fournir des réponses plus précises et extraire des détails des images pour générer des descriptions textuelles.

Pour en savoir plus, consultez la fiche de modèle Llama 3.2 dans Model Garden.

Remarques

Lorsque vous utilisez les modèles 11B et 90B, il n'y a aucune restriction lorsque vous envoyez des requêtes uniquement textuelles. Toutefois, si vous incluez une image dans votre requête, elle doit se situer au début de la requête, et vous ne pouvez inclure qu'une seule image. Vous ne pouvez pas, par exemple, inclure du texte, puis une image.

Llama 3.1

La collection Llama 3.1 de grands modèles de langage (LLM) multilingues est une collection de modèles génératifs pré-entraînés et adaptés aux instructions, offrant 8, 70 ou 405 milliards de paramètres (texte entrant/texte sortant). Les modèles de texte uniquement adaptés aux instructions Llama 3.1 (8, 70 ou 405 milliards de paramètres) sont optimisés pour les cas d'utilisation de dialogues multilingues et sont plus performants que de nombreux modèles de chat Open Source et fermés disponibles sur les benchmarks courants du secteur.

Pour en savoir plus, consultez la fiche de modèle Llama 3.1 dans Model Garden.

Llama 3

Les modèles adaptés aux instructions Llama 3 sont un ensemble de LLM optimisés pour les cas d'utilisation de dialogues. Les modèles Llama 3 sont plus performants que de nombreux modèles de chat Open Source disponibles sur les benchmarks courants du secteur.

Pour en savoir plus, consultez la fiche de modèle Llama 3 dans Model Garden.

Llama 2

Les LLM Llama 2 sont un ensemble de modèles de texte génératifs pré-entraînés et affinés, offrant de 7 à 70 milliards de paramètres.

Pour en savoir plus, consultez la fiche de modèle Llama 2 dans Model Garden.

Code Llama

Les modèles Code Llama de Meta sont conçus pour la synthèse, la compréhension et l'instruction de code.

Pour en savoir plus, consultez la fiche de modèle Code Llama dans Model Garden.

Llama Guard 3

Llama Guard 3 s'appuie sur les capacités de Llama Guard 2 en ajoutant trois nouvelles catégories : la diffamation, les élections et l'utilisation abusive de l'interpréteur de code. De plus, ce modèle est multilingue et présente un format d'invite compatible avec les modèles d'instruction Llama 3 ou version ultérieure.

Pour en savoir plus, consultez la fiche de modèle Llama Guard dans Model Garden.

Ressources

Pour en savoir plus sur Model Garden, consultez la page Explorer les modèles d'IA dans Model Garden.