Déployer des modèles d'IA générative

Cette page explique comment déployer un modèle d'IA générative sur un point de terminaison pour la prédiction en ligne.

Vérifier Model Garden

Si le modèle se trouve dans Model Garden, vous pouvez le déployer en cliquant sur Déployer (uniquement disponible pour certains modèles) ou sur Ouvrir le notebook.

Accéder à la page "Jardin de modèles"

Vous pouvez effectuer l'une des actions suivantes :

Diffuser des prédictions avec NVIDIA NIM

Les microservices d'inférence NVIDIA (NIM) sont des modèles d'IA pré-entraînés et optimisés empaquetés en tant que microservices. Ils sont conçus pour simplifier le déploiement d'une IA hautes performances prête à la production dans les applications.

NVIDIA NIM peut être utilisé avec Artifact Registry et Vertex AI Prediction pour déployer des modèles d'IA générative à des fins de prédiction en ligne.

Paramètres des conteneurs personnalisés

Cette section décrit les champs du paramètre containerSpec de votre modèle que vous devrez peut-être spécifier lors de l'importation de modèles d'IA générative.

Vous pouvez spécifier ces champs à l'aide de l'API REST Vertex AI ou de la commande gcloud ai models upload. Pour en savoir plus, consultez la section Champs d'API liés au conteneur.

sharedMemorySizeMb

Certains modèles d'IA générative nécessitent plus de mémoire partagée. La mémoire partagée est un mécanisme de communication inter-processus (IPC) qui permet à plusieurs processus d'accéder à un bloc de mémoire commun et de le manipuler. La taille de la mémoire partagée par défaut est de 64 Mo.

Certains serveurs de modèles, tels que vLLM ou Nvidia Triton, utilisent la mémoire partagée pour mettre en cache les données internes lors des inférences de modèle. Si les modèles partagés ne suffisent pas, certains serveurs de modèles ne peuvent pas diffuser de prédictions pour les modèles génératifs. La quantité de mémoire partagée nécessaire, le cas échéant, constitue un détail de la mise en œuvre de votre conteneur et de votre modèle. Consultez la documentation de votre serveur de modèles pour obtenir des instructions.

En outre, comme la mémoire partagée peut être utilisée pour la communication entre les GPU, l'utilisation d'une plus grande quantité de mémoire partagée peut améliorer les performances des accélérateurs sans fonctionnalités NVLink (par exemple, L4) si le conteneur de modèle nécessite une communication entre les GPU.

Pour savoir comment spécifier une valeur personnalisée pour la mémoire partagée, consultez la section Champs d'API liés au conteneur.

startupProbe

Une vérification de démarrage est une vérification facultative utilisée pour détecter lorsque le conteneur est démarré. Cette vérification permet de retarder la vérification de l'état et les vérifications d'activité jusqu'à ce que le conteneur démarre, empêchant ainsi l'arrêt prématuré des conteneurs qui démarrent lentement.

Pour en savoir plus, consultez la section Vérifications d'état.

healthProbe

La vérification d'état vérifie si un conteneur est prêt à accepter du trafic. Si la vérification d'état n'est pas fournie, Vertex AI utilise les vérifications d'état par défaut qui envoient une requête HTTP au port du conteneur et recherchent une réponse 200 OK du serveur de modèles.

Si votre serveur de modèle répond avec 200 OK avant que le modèle ne soit entièrement chargé, ce qui est possible, en particulier pour les grands modèles, la vérification de l'état aboutit prématurément et Vertex AI achemine le trafic vers le conteneur avant qu'il ne soit prêt.

Dans ce cas, spécifiez une vérification d'état personnalisée réussie qu'une fois le modèle entièrement chargé et prêt à accepter le trafic.

Pour en savoir plus, consultez la section Vérifications d'état.

Limites

Tenez compte des limites suivantes lorsque vous déployez des modèles d'IA générative:

  • Les modèles d'IA générative ne peuvent être déployés que sur une seule machine. Le déploiement multi-hôte n'est pas pris en charge.
  • Pour les modèles très volumineux qui ne rentrent pas dans la plus grande vRAM compatible, comme Llama 3.1 405B, nous vous recommandons de les quantifier pour qu'ils y rentrent.