Déployer des modèles d'IA générative

Cette page explique comment déployer un modèle d'IA générative sur un point de terminaison pour la prédiction en ligne.

Consulter Model Garden

Si le modèle se trouve dans Model Garden, vous pouvez le déployer en cliquant sur Déployer (uniquement disponible pour certains modèles) ou sur Ouvrir le notebook.

Accéder à la page "Jardin de modèles"

Vous pouvez effectuer l'une des actions suivantes :

Paramètres pour les conteneurs personnalisés

Cette section décrit les champs du paramètre containerSpec de votre modèle que vous devrez peut-être spécifier lors de l'importation de modèles d'IA générative.

sharedMemorySizeMb

Certains modèles d'IA générative nécessitent davantage de mémoire partagée. La mémoire partagée est un mécanisme de communication inter-processus (IPC) qui permet à plusieurs processus d'accéder à un bloc de mémoire commun et de le manipuler. La taille de la mémoire partagée par défaut est de 64 Mo.

Certains serveurs de modèles, tels que vLLM ou Nvidia Triton, utilisent la mémoire partagée pour mettre en cache des données internes lors des inférences de modèle. Si les modèles partagés ne suffisent pas, certains serveurs de modèles ne peuvent pas diffuser de prédictions pour les modèles génératifs. La quantité de mémoire partagée nécessaire, le cas échéant, constitue un détail de la mise en œuvre de votre conteneur et de votre modèle. Consultez la documentation de votre serveur de modèles pour obtenir des instructions.

En outre, comme la mémoire partagée peut être utilisée pour la communication entre les GPU, l'utilisation d'une plus grande quantité de mémoire partagée peut améliorer les performances des accélérateurs sans fonctionnalités NVLink (par exemple, L4) si le conteneur de modèle nécessite une communication entre les GPU.

Pour savoir comment spécifier une valeur personnalisée pour la mémoire partagée, consultez la section Champs d'API liés au conteneur.

startupProbe

Une vérification de démarrage est une vérification facultative utilisée pour détecter lorsque le conteneur est démarré. Cette vérification permet de retarder la vérification de l'état et les vérifications d'activité jusqu'à ce que le conteneur démarre, empêchant ainsi l'arrêt prématuré des conteneurs qui démarrent lentement.

Pour en savoir plus, consultez la section Vérifications d'état.

healthProbe

La vérification d'état vérifie si un conteneur est prêt à accepter du trafic. Si la vérification d'état n'est pas fournie, Vertex AI utilise les vérifications d'état par défaut qui envoient une requête HTTP au port du conteneur et recherchent une réponse 200 OK du serveur de modèles.

Si votre serveur de modèles envoie une réponse 200 OK avant que le modèle ne soit entièrement chargé, ce qui est possible, en particulier pour les modèles volumineux, la vérification de l'état réussit prématurément et Vertex AI achemine le trafic vers le conteneur avant qu'il ne soit prêt.

Dans ce cas, spécifiez une vérification d'état personnalisée réussie qu'une fois le modèle entièrement chargé et prêt à accepter le trafic.

Pour en savoir plus, consultez la section Vérifications d'état.