Hugging Face fournit des modèles pré-entraînés, des scripts d'affinage et des API de développement qui facilitent le processus de création et de découverte des LLM. Model Garden peut mettre en service des modèles d'embeddings textuels, de conversion texte-vers-image, de génération de texte et de conversion image textuelle-vers-texte dans HuggingFace.
Options de déploiement pour les modèles Hugging Face
Vous pouvez déployer des modèles Hugging Face compatibles dans Vertex AI ou Google Kubernetes Engine (GKE). L'option de déploiement que vous choisissez peut dépendre du modèle que vous utilisez et du niveau de contrôle que vous souhaitez exercer sur vos charges de travail.
Déployer dans Vertex AI
Vertex AI offre une plate-forme gérée qui permet de créer et de faire évoluer des projets de machine learning sans nécessiter d'expertise MLOps en interne. Vous pouvez utiliser Vertex AI en tant qu'application en aval qui diffuse les modèles Hugging Face. Nous vous recommandons d'utiliser Vertex AI si vous souhaitez bénéficier de fonctionnalités MLOps de bout en bout, de fonctionnalités de ML à valeur ajoutée et d'une expérience sans serveur pour simplifier le développement.
Pour déployer un modèle Hugging Face compatible dans Vertex AI, accédez à Model Garden.
Accédez à la section Modèles Open Source sur Hugging Face, puis cliquez sur Afficher plus.
Recherchez et sélectionnez un modèle à déployer.
Facultatif : Dans le champ Environnement de déploiement, sélectionnez Vertex AI.
Facultatif : Spécifiez les détails du déploiement.
Cliquez sur Déployer.
Pour commencer, consultez les exemples suivants :
- Certains modèles comportent des fiches de modèle détaillées et des paramètres de déploiement validés par Google, tels que google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct, Qwen/QwQ-32B, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, black-forest-labs/FLUX.1-dev et HuggingFaceFW/fineweb-edu-classifier.
- Certains modèles ont des paramètres de déploiement validés par Google, mais n'ont pas de fiches de modèle détaillées, par exemple NousResearch/Genstruct-7B.
- Certains modèles ont des paramètres de déploiement générés automatiquement.
- Certains modèles ont des paramètres de déploiement générés automatiquement en fonction des métadonnées du modèle, comme certains modèles tendance récents de génération de texte, d'embeddings de texte, de génération de texte vers image et de conversion d'image textuelle en texte.
Déployer dans GKE
Google Kubernetes Engine (GKE) est la solution Google Cloud pour les services Kubernetes gérés, qui offre évolutivité, sécurité, résilience et rentabilité. Nous vous recommandons cette option si vous disposez déjà d'investissements Kubernetes, si votre entreprise dispose d'une expertise en MLOps interne ou si vous avez besoin d'un contrôle précis sur des charges de travail d'IA/ML complexes avec une sécurité, des pipelines de données et des ressources uniques et des exigences de gestion des ressources.
Pour déployer un modèle Hugging Face compatible dans GKE, accédez à Model Garden.
Accédez à la section Modèles Open Source sur Hugging Face, puis cliquez sur Afficher plus.
Recherchez et sélectionnez un modèle à déployer.
Pour l'environnement de déploiement, sélectionnez GKE.
Suivez les instructions de déploiement.
Pour commencer, consultez les exemples suivants :
- Certains modèles comportent des fiches de modèle détaillées et des paramètres de déploiement validés, tels que google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct et Qwen/QwQ-32B.
- Certains modèles comportent des paramètres de déploiement validés mais n'ont pas de fiches de modèle détaillées, par exemple NousResearch/Genstruct-7B.
Que signifie "Optimisé par Vertex AI" ?
Nous ajoutons automatiquement les modèles Hugging Face les plus récents et les plus populaires à Model Garden. Ce processus inclut la génération automatique d'une configuration de déploiement pour chaque modèle.
Pour répondre aux préoccupations concernant les failles et le code malveillant, nous utilisons le Hugging Face Malware Scanner pour évaluer la sécurité des fichiers dans chaque dépôt de modèles Hugging Face sur une base quotidienne. Si un dépôt de modèles est signalé comme contenant des logiciels malveillants, nous supprimons immédiatement le modèle de la page de la galerie Hugging Face.
Le fait qu'un modèle soit désigné comme compatible avec Vertex AI signifie qu'il a été testé et qu'il peut être déployé sur Vertex AI. Toutefois, nous ne garantissons pas l'absence de failles ou de code malveillant. Nous vous recommandons d'effectuer vos propres vérifications de sécurité avant de déployer un modèle dans votre environnement de production.
Ajuster les configurations de déploiement pour des cas d'utilisation spécifiques
La configuration de déploiement par défaut fournie avec l'option de déploiement en un clic ne peut pas répondre à toutes les exigences, compte tenu de la diversité des cas d'utilisation et des priorités variables en termes de latence, de débit, de coût et de précision.
Vous pouvez donc commencer par tester le déploiement en un clic pour établir une référence, puis affiner les configurations de déploiement à l'aide du notebook Colab (vLLM, TGI, TEI, HF pytorch inference) ou du SDK Python. Cette approche itérative vous permet d'adapter le déploiement à vos besoins précis afin d'obtenir les meilleures performances possibles pour votre application spécifique.
Que faire si le modèle que vous souhaitez utiliser ne figure pas dans Model Garden ?
Si vous recherchez un modèle spécifique qui ne figure pas dans Model Garden, cela signifie qu'il n'est pas compatible avec Vertex AI. Les sections suivantes décrivent le raisonnement et ce que vous pouvez faire.
Pourquoi le modèle n'est-il pas listé ?
Voici les raisons pour lesquelles un modèle peut ne pas figurer dans Model Garden :
- Il ne s'agit pas d'un modèle tendance : nous privilégions souvent les modèles très populaires et qui suscitent un fort intérêt de la part de la communauté.
- Il n'est pas encore compatible : il est possible que le modèle ne fonctionne pas avec un conteneur de diffusion compatible. Par exemple, le conteneur vLLM pour les modèles
text-generation
etimage-text-to-text
. - Tâches de pipeline non compatibles : le modèle comporte une tâche que nous ne prenons pas encore entièrement en charge. Nous acceptons les tâches suivantes :
text-generation
,text2text-generation
,text-to-image
,feature-extraction
,sentence-similarity
etimage-text-to-text
.
Quelles sont vos options ?
Vous pouvez toujours travailler avec les modèles disponibles dans Model Garden :
- Déployez-le vous-même à l'aide du notebook Colab : nous disposons des notebooks Colab suivants (vLLM, TGI, TEI, inférence HF pytorch), qui vous permettent de déployer des modèles avec des configurations personnalisées. Vous avez ainsi un contrôle total sur le processus.
- Envoyez une demande de fonctionnalité : collaborez avec votre ingénieur de l'assistance et envoyez une demande de fonctionnalité via Model Garden. Vous pouvez également consulter l'assistance Vertex IA générative pour obtenir de l'aide supplémentaire.
- Restez informé : nous ajoutons régulièrement de nouveaux modèles à Model Garden. Le modèle que vous recherchez sera peut-être disponible à l'avenir. N'hésitez pas à revenir régulièrement pour le vérifier.