Utiliser des modèles Hugging Face

HuggingFace fournit des modèles pré-entraînés, des scripts de réglage et des API de développement qui facilitent le processus de création et de découverte des LLM. Model Garden peut diffuser les modèles compatibles avec l'inférence d'embedding textuel, l'inférence Pytorch standard et l'inférence de génération de texte dans HuggingFace.

Options de déploiement pour les modèles Hugging Face

Vous pouvez déployer des modèles Hugging Face compatibles dans Vertex AI ou Google Kubernetes Engine (GKE). L'option de déploiement que vous choisissez peut dépendre du modèle que vous utilisez et du niveau de contrôle que vous souhaitez exercer sur vos charges de travail.

Déployer dans Vertex AI

Vertex AI offre une plate-forme gérée qui permet de créer et de faire évoluer des projets de machine learning sans nécessiter d'expertise MLOps en interne. Vous pouvez utiliser Vertex AI en tant qu'application en aval qui diffuse les modèles Hugging Face. Nous vous recommandons d'utiliser Vertex AI si vous souhaitez bénéficier de fonctionnalités MLOps de bout en bout, de fonctionnalités de ML à valeur ajoutée et d'une expérience sans serveur pour simplifier le développement.

  1. Pour déployer un modèle Hugging Face compatible dans Vertex AI, accédez à Model Garden.

    Accéder à la page "Jardin de modèles"

  2. Accédez à la section Modèles Open Source sur Hugging Face, puis cliquez sur Afficher plus.

  3. Recherchez et sélectionnez un modèle à déployer.

  4. Facultatif : Dans le champ Environnement de déploiement, sélectionnez Vertex AI.

  5. Facultatif : Spécifiez les détails du déploiement.

  6. Cliquez sur Déployer.

Pour commencer, consultez les exemples suivants :

Déployer dans GKE

Google Kubernetes Engine (GKE) est la solution Google Cloud pour les services Kubernetes gérés, qui offre évolutivité, sécurité, résilience et rentabilité. Nous vous recommandons cette option si vous disposez déjà d'investissements Kubernetes, si votre entreprise dispose d'une expertise en MLOps interne ou si vous avez besoin d'un contrôle précis sur des charges de travail d'IA/ML complexes avec une sécurité, des pipelines de données et des ressources uniques et des exigences de gestion des ressources.

  1. Pour déployer un modèle Hugging Face compatible dans GKE, accédez à Model Garden.

    Accéder à la page "Jardin de modèles"

  2. Accédez à la section Modèles Open Source sur Hugging Face, puis cliquez sur Afficher plus.

  3. Recherchez et sélectionnez un modèle à déployer.

  4. Pour l'environnement de déploiement, sélectionnez GKE.

  5. Suivez les instructions de déploiement.

Pour commencer, consultez les exemples suivants :