HuggingFace fournit des modèles pré-entraînés, des scripts de réglage et des API de développement qui facilitent le processus de création et de découverte des LLM. Model Garden est compatible avec l'inférence d'embedding texuel et l'inférence Pytorch standard compatibles avec les modèles populaires dans Huggingface, ainsi que tous les modèles compatibles avec l'inférence de génération de texte compatibles dans HuggingFace.
Options de déploiement
Pour déployer un modèle Hugging Face compatible, accédez à Model Garden, puis cliquez sur Déployer depuis Hugging Face.
Déployer dans Vertex AI
Vertex AI offre une plate-forme gérée qui permet de créer et de faire évoluer des projets de machine learning sans nécessiter d'expertise MLOps en interne. Vous pouvez utiliser Vertex AI en tant qu'application en aval qui diffuse les modèles Hugging Face. Nous vous recommandons d'utiliser Vertex AI si vous souhaitez bénéficier de fonctionnalités MLOps de bout en bout, de fonctionnalités de ML à valeur ajoutée et d'une expérience sans serveur pour simplifier le développement.
Pour commencer, consultez les exemples suivants :
- Certains modèles comportent des fiches de modèle détaillées et des paramètres de déploiement validés, tels que google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 et HuggingFaceFW/fineweb-edu-classifier.
- Certains modèles comportent des paramètres de déploiement validés mais n'ont pas de fiches de modèle détaillées, par exemple NousResearch/Genstruct-7B.
- Certains modèles comportent des paramètres de déploiement non validés qui sont calculés automatiquement, par exemple ai4bharat/Airavata.
Déployer dans GKE
Google Kubernetes Engine (GKE) est la solution Google Cloud pour les services Kubernetes gérés, qui offre évolutivité, sécurité, résilience et rentabilité. Nous vous recommandons cette option si vous disposez déjà d'investissements Kubernetes, si votre entreprise dispose d'une expertise en MLOps interne ou si vous avez besoin d'un contrôle précis sur des charges de travail d'IA/ML complexes avec une sécurité, des pipelines de données et des ressources uniques et des exigences de gestion des ressources.
Pour commencer, consultez les exemples suivants :
- Certains modèles comportent des fiches de modèle détaillées et des paramètres de déploiement validés, tels que google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf et mistralai/Mistral-7B-v0.1).
- Certains modèles comportent des paramètres de déploiement validés mais n'ont pas de fiches de modèle détaillées, par exemple NousResearch/Genstruct-7B.