Modèles compatibles avec Model Garden

Liste des modèles propriétaires de Google

Le tableau suivant répertorie les modèles propriétaires de Google disponibles dans Model Garden :

Nom du modèle Modalité Description Guides de démarrage rapide
Gemini 1.5 Flash Langage, audio, vision Le modèle multimodal Gemini le plus rapide et le plus économique. Il est conçu pour les tâches volumineuses et les applications sensibles à la latence à prix abordables. Gemini 1.5 Flash étant très réactif, il s'agit d'une bonne option pour créer des assistants de chat et des applications de génération de contenu à la demande. fiche de modèle
Gemini 1.5 Pro Langage, audio, vision Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. fiche de modèle
Gemini 1.0 Pro Langue Conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code. fiche de modèle
Gemini 1.0 Pro Vision Langage, vision Modèle multimodal qui permet d'ajouter des fichiers image, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. fiche de modèle
PaLM 2 pour le texte Langue Optimisé pour suivre les instructions en langage naturel et adapté à diverses tâches linguistiques. fiche de modèle
PaLM 2 for Chat Langue Optimisé pour tenir des conversations naturelles. Utilisez ce modèle pour créer et personnaliser votre propre application de chatbot. fiche de modèle
Codey pour la complétion de code Langue Génère du code à partir des requêtes de code. Convient pour proposer des suggestions de code et réduire le plus possible la présence de bugs dans le code. fiche de modèle
Codey pour la génération de code Langue Génère du code à partir de la saisie en langage naturel. Convient pour écrire des fonctions, des classes, des tests unitaires, etc. fiche de modèle
Codey pour le chat de code Langue Obtenez de l'aide sur le code grâce à des conversations naturelles. Convient pour les questions concernant une API, la syntaxe dans un langage compatible, etc. fiche de modèle
Embeddings pour le texte Langue Convertit des données textuelles en vecteurs numériques pouvant être traités par des algorithmes de machine learning, en particulier des modèles volumineux. fiche de modèle
Imagen pour la génération d'images Vision Créez des images de qualité studio à grande échelle à l'aide de requêtes textuelles. Vous pouvez également utiliser ce modèle pour améliorer la qualité des images. fiche de modèle
Imagen pour l'édition et la personnalisation Vision Modifiez des images ou utilisez l'apprentissage par quelques exemples pour créer des images de qualité studio à grande échelle à l'aide d'images de base et de requêtes textuelles, ou d'images de référence et de requêtes textuelles. fiche de modèle
Segmentation d'image Vertex (Preview) Vision Utilisez des requêtes de texte ou dessinez des croquis pour segmenter une image. La segmentation d'image vous permet, par exemple, de détecter des objets, de supprimer l'arrière-plan d'une image ou de segmenter le premier plan d'une image. fiche de modèle
Imagen pour le sous-titrage et Visual Question Answering (VQA) Langue Génère une description pertinente pour une image donnée. fiche de modèle
Embeddings multimodaux Vision Génère des vecteurs à partir d'images, qui peuvent être utilisés pour des tâches en aval telles que la classification d'images et la recherche dans des images. fiche de modèle
Chirp Voix Version d'un modèle de reconnaissance vocale universel qui comporte plus de deux milliards de paramètres et peut assurer une transcription dans plus de 100 langues dans un seul modèle. fiche de modèle

Liste de modèles avec réglage Open Source ou diffusion de recettes dans Model Garden

Le tableau suivant liste les modèles OSS compatibles avec le réglage Open Source ou la diffusion de recettes dans Model Garden :

Nom du modèle Modalité Description Guide de démarrage rapide
Llama 3.3 Langue Le grand modèle de langage (LLM) multilingue Meta Llama 3.3 est un modèle génératif pré-entraîné et adapté aux instructions, proposé en 70 milliards de paramètres (texte entrant/texte sortant). fiche de modèle
Flux Vision Modèle de Transformer à flux corrigé de 12 milliards de paramètres qui génère des images de haute qualité à partir de descriptions textuelles. fiche de modèle
Protection des requêtes Langue Protégez les entrées LLM contre les techniques de jailbreaking et les injections indirectes. fiche de modèle
Llama 3.2 Langue Ensemble de grands modèles de langage multilingues, qui sont des modèles génératifs pré-entraînés et adaptés aux instructions, proposés en 1 milliard et 3 milliards de paramètres. fiche de modèle
Llama 3.2-Vision Langage, vision Ensemble de grands modèles de langage multimodaux, qui sont des modèles génératifs de raisonnement par image pré-entraînés et adaptés aux instructions, proposés en 11 milliards et 90 milliards de paramètres. Ces modèles sont optimisés pour la reconnaissance visuelle, le raisonnement par image, la création de sous-titres et les réponses à des questions générales sur une image. fiche de modèle
Llama Guard 3 Langue Modèle pré-entraîné Llama-3.1-8B qui a été affiné pour la classification de la sécurité du contenu. fiche de modèle
Qwen2 Langue Déployez Qwen2, une série de grands modèles de langage de base. Colab
Fiche de modèle
Phi-3 Langue Deployez Phi-3, une série de grands modèles de langage de base. Colab
Fiche de modèle
E5 Langue Déployez E5, une série de modèles d'embedding textuel. Colab
Fiche de modèle
Instant ID Langage, vision Déployez Instant ID, un modèle de génération de texte vers image préservant l'identité. Colab
Fiche de modèle
Llama 3 Langue Explorez et créez avec les modèles Llama 3 de Meta (8B, 70B, 405B) sur Vertex AI. fiche de modèle
Gemma 2 Langue Open weight models (9B, 27B) that are built from the same research and technology used to create Google's Gemini models. Fiche de modèle
Gemma Langue Modèles à pondération ouverte (2B, 7B) basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. Fiche de modèle
CodeGemma Langue Modèles à pondération ouverte (2B, 7B) conçus pour la génération et la complétion de code, et basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. Fiche de modèle
PaliGemma Langue Modèle 3B à pondération ouverte conçu pour les tâches de sous-titrage d'images et les questions/réponses visuelles, et basé sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini de Google. Fiche de modèle
Vicuna v1.5 Langue Déployez des modèles de série Vicuna v1.5, qui sont des modèles de fondation réglés dans LLama2 pour la génération de texte. fiche de modèle
NLLB Langue Déployez des modèles de série NLLB pour la traduction multilingue. Fiche de modèle
Colab
Mistral-7B Langue Déployez Mistral-7B, un modèle de fondation pour la génération de texte. fiche de modèle
BioGPT Langue Déployez BioGPT, un modèle génératif de texte pour le domaine biomédical. Fiche de modèle
Colab
BiomedCLIP Langage, vision Déployez BiomedCLIP, un modèle de fondation multimodal pour le domaine biomédical. Fiche de modèle
Colab
ImageBind Langage, vision,
Audio
Déployez ImageBind, un modèle de fondation pour l'embedding multimodal Fiche de modèle
Colab
DITO Langage, vision Réglez et déployez DITO, un modèle de fondation multimodal pour les tâches de détection d'objets de vocabulaire ouvert. Fiche de modèle
Colab
OWL-ViT v2 Langage, vision Déployez OWL-ViT v2, un modèle de fondation multimodal pour les tâches de détection d'objets de vocabulaire ouvert. Fiche de modèle
Colab
FaceStylizer (Mediapipe) Vision Pipeline génératif permettant de transformer les images de visages humains dans un nouveau style. Fiche de modèle
Colab
Llama 2 Langue Ajustez et déployez les modèles de fondation Llama 2 de Meta (7B, 13B, 70B) sur Vertex AI. fiche de modèle
Code Llama Langue Déployez les modèles de fondation Code Llama de Meta (7B, 13B, 34B) sur Vertex AI. fiche de modèle
Falcon-instruct Langue Ajustez et déployez les modèles Falcon-instruct (7B, 40B) à l'aide de PEFT. Colab
Fiche de modèle
OpenLLaMA Langue Ajustez et déployez les modèles OpenLLaMA (3B, 7B, 13B) à l'aide de PEFT. Colab
Fiche de modèle
T5-FLAN Langue Ajustez et déployez T5-FLAN (de base, petit, grand). Fiche de modèle (pipeline d'ajustement inclus)
BERT Langue Ajustez et déployez BERT à l'aide de PTE. Colab
Fiche de modèle
BART-large-cnn Langue Déployez BART, un modèle Transformer encodeur-encodeur (seq2seq) avec un encodeur bidirectionnel (semblable à BERT) et un décodeur autorégressif (semblable à GPT). Colab
Fiche de modèle
RoBERTa-large Langue Ajustez et déployez RoBERTa-large à l'aide de PEFT. Colab
Fiche de modèle
XLM-RoBERTa-large Langue Ajustez et déployez XLM-RoBERTa-large (version multilingue de RoBERTa) à l'aide de PEFT. Colab
Fiche de modèle
Dolly-v2-7b Langue Déployez Dolly-v2-7b, un grand modèle de langage capable de suivre des instructions avec 6,9 milliards de paramètres. Colab
Fiche de modèle
Stable Diffusion XL v1.0 Langage, vision Déployez la version 1.0 de Stable Diffusion XL, qui est compatible avec la génération de texte vers image. Colab
Fiche de modèle
Stable Diffusion XL Lightning Langage, vision Déployez Stable Diffusion XL Lightning, un modèle de génération de texte vers image. Colab
Fiche de modèle
Stable Diffusion v2.1 Langage, vision Ajustez et déployez la version 2.1 de Stable Diffusion (compatible avec la génération de texte vers image) à l'aide de Dreambooth. Colab
Fiche de modèle
Stable Diffusion 4x upscaler Langage, vision Déployez Stable Diffusion 4x upscaler, qui est compatible avec la création d'images en très grande résolution sur la base d'une requête textuelle. Colab
Fiche de modèle
InstructPix2Pix Langage, vision Déployez Instructpx2Pix, qui permet de modifier des images à l'aide d'une requête textuelle. Colab
Fiche de modèle
Stable Diffusion Inpainting Langage, vision Ajustez et déployez Stable Diffusion Inpainting, qui permet d'insérer une image masquée à l'aide d'une requête textuelle. Colab
Fiche de modèle
SAM Langage, vision Déployez Segment Anything, qui est compatible avec la segmentation d'images zero-shot. Colab
Fiche de modèle
Texte vers vidéo (ModelScope) Langage, vision Déployer la fonction texte vers vidéo de ModelScope, qui est compatible avec la génération de texte vers vidéo. Colab
Fiche de modèle
Récupération d'image composée Pic2Word Langage, vision Déployez Pic2Word, qui est compatible avec la récupération d'image composée multimodale. Colab
Fiche de modèle
BLIP2 Langage, vision Déployez BLIP2, qui est compatible avec Visual Captioning et Visual Question Answering. Colab
Fiche de modèle
Open-CLIP Langage, vision Ajustez et déployez Open-CLIP, qui est compatible avec la classification zero-shot. Colab
Fiche de modèle
F-VLM Langage, vision Déployez F-VLM, qui est compatible avec la détection d'objets au sein d'images à l'aide d'un vocabulaire ouvert. Colab
Fiche de modèle
tfhub/EfficientNetV2 Vision Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de classification d'images EfficientNetV2. Colab
Fiche de modèle
EfficientNetV2 (TIMM) Vision Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images EfficientNetV2. Colab
Fiche de modèle
Proprietary/EfficientNetV2 Vision Ajustez et déployez le point de contrôle exclusif Google du modèle de classification d'images EfficientNetV2. Colab
Fiche de modèle
EfficientNetLite (MediaPipe) Vision Ajustez le modèle de classification d'images EfficientNetLite via le générateur de modèles MediaPipe. Colab
Fiche de modèle
tfvision/vit Vision Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de classification d'images ViT. Colab
Fiche de modèle
ViT (TIMM) Vision Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images ViT. Colab
Fiche de modèle
Proprietary/ViT Vision Ajustez et déployez le point de contrôle exclusif Google pour le modèle de classification d'images ViT. Colab
Fiche de modèle
Proprietary/MaxViT Vision Ajustez et déployez le point de contrôle exclusif Google du modèle de classification d'images hybride MaxViT (CNN + ViT). Colab
Fiche de modèle
ViT (JAX) Vision Ajustez et déployez la mise en œuvre JAX du modèle de classification d'images ViT. Colab
Fiche de modèle
tfvision/SpineNet Vision Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de détection d'objets SpineNet. Colab
Fiche de modèle
Proprietary/Spinenet Vision Ajustez et déployez le point de contrôle exclusif Google du modèle de détection d'objets SpineNet. Colab
Fiche de modèle
tfvision/YOLO Vision Ajustez et déployez la mise en œuvre Tensorflow Vision du modèle de détection d'objets en une étape YOLO. Colab
Fiche de modèle
Proprietary/YOLO Vision Ajustez et déployez le point de contrôle exclusif Google pour le modèle de détection d'objets en une étape YOLO. Colab
Fiche de modèle
YOLOv8 (Keras) Vision Ajustez et déployez la mise en œuvre Keras du modèle YOLOv8 pour la détection d'objets. Colab
Fiche de modèle
tfvision/YOLOv7 Vision Ajustez et déployez le modèle YOLOv7 pour la détection d'objets. Colab
Fiche de modèle
Suivi des objets vidéo Bytetrack Vision Exécutez des prédictions par lot pour le suivi des objets vidéo avec ByteTrack. Colab
Fiche de modèle
ResNeSt (TIMM) Vision Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images ResNeSt. Colab
Fiche de modèle
ConvNeXt (TIMM) Vision Ajustez et déployez ConvNeXt, un pur modèle convolutif de classification d'images basé sur la conception Vision Transformers. Colab
Fiche de modèle
CspNet (TIMM) Vision Ajustez et déployez le modèle de classification d'images CSPNet (Cross Stage Partial Network). Colab
Fiche de modèle
Inception (TIMM) Vision Ajustez et déployez le modèle de classification d'images Inception. Colab
Fiche de modèle
DeepLabv3+ (avec point de contrôle) Vision Ajustez et déployez le modèle DeepLab-v3 Plus pour la segmentation sémantique d'images. Colab
Fiche de modèle
Faster R-CNN (Detectron2) Vision Ajustez et déployez la mise en œuvre Detectron2 du modèle Faster R-CNN pour la détection d'objets au sein d'images. Colab
Fiche de modèle
RetinaNet (Detectron2) Vision Ajustez et déployez la mise en œuvre Detectron2 du modèle RetinaNet pour la détection d'objets au sein d'images. Colab
Fiche de modèle
Mask R-CNN (Detectron2) Vision Ajustez et déployez la mise en œuvre Detectron2 du modèle Mask R-CNN pour la détection et la segmentation d'objets au sein d'images. Colab
Fiche de modèle
ControlNet Vision Ajustez et déployez le modèle de génération de texte vers image ControlNet. Colab
Fiche de modèle
MobileNet (TIMM) Vision Ajustez et déployez la mise en œuvre PyTorch du modèle de classification d'images MobileNet. Colab
Fiche de modèle
Classification d'images MobileNetV2 (MediaPipe) Vision Ajustez le modèle de classification d'images MobileNetV2 à l'aide du générateur de modèles MediaPipe. Colab
Fiche de modèle
Détection d'objets MobileNetV2 (MediaPipe) Vision Ajustez le modèle de détection d'objets MobileNetV2 à l'aide du générateur de modèles MediaPipe. Colab
Fiche de modèle
MobileNet-MultiHW-AVG (MediaPipe) Vision Ajustez le modèle de détection d'objets MobileNet-MultiHW-AVG à l'aide du générateur de modèles MediaPipe. Colab
Fiche de modèle
DeiT Vision Ajustez et déployez le modèle DeiT (Data-Efficient Image Transformers) pour la classification d'images. Colab
Fiche de modèle
BEiT Vision Ajustez et déployez le modèle BEiT (Bidirectional Encoder Representation par Image Transformers) pour la classification d'images. Colab
Fiche de modèle
Reconnaissance de gestes de la main (MediaPipe) Vision Ajustez et déployez les modèles de reconnaissance de gestes de la main à l'aide de MediaPipe. Colab
Fiche de modèle
Classificateur d'embedding lexical moyen (MediaPipe) Vision Ajustez et déployez les modèles de classificateur d'embedding lexical moyen à l'aide de MediaPipe. Colab
Fiche de modèle
Classificateur MobileBERT (MediaPipe) Vision Ajustez et déployez les modèles de classificateur MobileBERT à l'aide de MediaPipe directement sur votre appareil. Colab
Fiche de modèle
Classification d'extraits vidéo MoViNet Vidéo Ajustez et déployez les modèles de classification d'extraits vidéo MoViNet. Colab
Fiche de modèle
Reconnaissance d'actions dans des vidéos MoViNet Vidéo Ajustez et déployez les modèles MoViNet pour l'inférence de reconnaissance d'actions. Colab
Fiche de modèle
Stable Diffusion XL LCM Vision Déployez ce modèle qui utilise le modèle de cohérence latente (LCM) pour améliorer la génération texte-vers-image dans les modèles de diffusion latente, en permettant de créer des images de haute qualité plus rapidement, avec moins d'étapes. Colab
Fiche de modèle
LLaVA 1.5 Vision, langue Déployez des modèles LLaVA 1.5. Colab
Fiche de modèle
Pytorch-ZipNeRF Vision, vidéo Entraînez le modèle Pytorch-ZipNeRF, qui est une implémentation de pointe de l'algorithme ZipNeRF dans le framework Pytorch, conçu pour une reconstruction 3D efficace et précise à partir d'images 2D. Colab
Fiche de modèle
Mixtral Langue Déployez le modèle Mixtral, qui est un grand modèle de langage (LLM) MoE (Mixture of Experts) développé par Mistral AI. fiche de modèle
Llama 2 (version quantifiée) Langue Ajustez et déployez une version quantifiée des modèles Llama 2 de Meta. Colab
Fiche de modèle
LaMa (repeinture de grand masque) Vision Déployez LaMa, qui utilise des convolutions de Fourier rapides (FFC, fast Fourier convolutions), une perte perceptuelle de champ réceptif élevée et des masques d'entraînement volumineux, pour une peinture d'image robuste à la résolution. Colab
Fiche de modèle
AutoGluon Tabulaire Avec AutoGluon, vous pouvez entraîner et déployer des modèles de machine learning et de deep learning de haute précision pour les données tabulaires. Colab
Fiche de modèle
MaMMUT Langage, vision Une architecture d'encodeur et de décodeur de texte pour les tâches multimodales telles que les systèmes de questions-réponses visuelles, la récupération d'images de texte, la récupération d'images textuelles et la génération d'embeddings multimodaux. Colab
Fiche de modèle
Whisper Large Voix Déployez Whisper Large, le modèle de pointe d'OpenAI pour la reconnaissance vocale automatique (ASR). Colab
Fiche de modèle

Liste des modèles partenaires disponibles dans Model Garden

Certains modèles partenaires sont proposés sous forme d'API gérées dans Vertex AI Model Garden (également appelés modèles en tant que service). Le tableau suivant répertorie les modèles disponibles auprès des partenaires Google dans Model Garden :

Nom du modèle Modalité Description Guide de démarrage rapide
Anthropic Claude 3.5 Sonnet v2 Langue La version améliorée de Claude 3.5 Sonnet est un modèle de pointe pour les tâches d'ingénierie logicielle et les capacités agentives dans le monde réel. Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur. fiche de modèle
Claude 3.5 Haiku d'Anthropic Langue Claude 3.5 Haiku, la nouvelle génération du modèle le plus rapide et le plus économique d'Anthropic, est idéal pour les cas d'utilisation où la rapidité et le prix sont importants. fiche de modèle
Claude 3 Opus d'Anthropic Langue Modèle d'IA performant qui offre des performances de haut niveau pour des tâches très complexes. Il est capable de gérer des requêtes ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension semblable à celle d'un être humain. fiche de modèle
Claude 3 Haiku d'Anthropic Langue Modèle de vision et de texte le plus rapide d'Anthropic. Il permet d'obtenir des réponses quasi instantanées à des requêtes de base. Il est conçu pour offrir des expériences d'IA fluides qui imitent les interactions humaines. fiche de modèle
Claude 3.5 Sonnet d'Anthropic Langue Claude 3.5 Sonnet surpasse Claude 3 Opus d'Anthropic sur un large éventail d'évaluations d'Anthropic, en raison de la rapidité et du coût de son modèle de milieu de gamme, Claude 3 Sonnet. fiche de modèle
Jamba 1.5 Large (preview) Langue Le modèle Jamba 1.5 Large d'AI21 Labs est conçu pour offrir des réponses de qualité supérieure, un débit élevé et un prix compétitif par rapport aux autres modèles de sa catégorie. fiche de modèle
Jamba 1.5 Mini (preview) Langue Le Jamba 1.5 Mini d'AI21 Labs est bien équilibré en termes de qualité, de débit et de coût. fiche de modèle
Llama 3.2 (preview) Langage, vision Modèle multimodal de taille moyenne (90 milliards) qui peut prendre en charge le raisonnement sur les images, comme l'analyse de graphiques et de tableaux, ainsi que le sous-titrage d'images. fiche de modèle
Llama 3.1 (preview) Langue Ensemble de LLM multilingues optimisés pour les cas d'utilisation de dialogues multilingues et plus performants que de nombreux modèles de chat Open Source et fermés disponibles sur les benchmarks courants du secteur. fiche de modèle
Mistral Large (24.11) Langue Mistral Large (24.11) est la prochaine version du modèle Mistral Large (24.07), avec des capacités de raisonnement et d'appel de fonction améliorées. fiche de modèle
Mistral Nemo Langue Modèle propriétaire le plus rentable de Mistral AI. Utilisez les charges de travail à faible latence de Mistral Nemo et les tâches de base qui peuvent être effectuées de manière groupée, telles que la classification, l'assistance client et la génération de texte. fiche de modèle
Codestral (25.01) Code Modèle de pointe conçu pour la génération de code, y compris la méthode fill-in-the-middle et la complétion de code. fiche de modèle