Cette page explique comment déployer un modèle d'IA générative sur un point de terminaison pour la prédiction en ligne.
Consulter Model Garden
Si le modèle se trouve dans Model Garden, vous pouvez le déployer en cliquant sur Déployer (uniquement disponible pour certains modèles) ou sur Ouvrir le notebook.
Accéder à la page "Jardin de modèles"
Vous pouvez effectuer l'une des actions suivantes :
Si votre modèle est semblable à celui du Model Garden, vous pourrez peut-être réutiliser directement l'un des conteneurs Model Garden.
Créez un conteneur personnalisé conforme aux exigences concernant l'utilisation de conteneurs personnalisés pour la prédiction avant d'importer le modèle dans Vertex AI Model Registry. Une fois importé, il devient une ressource
model
que vous pouvez déployer sur un point de terminaison.Vous pouvez utiliser les fichiers Dockerfile et les scripts que nous utilisons pour créer nos conteneurs Model Garden comme référence ou comme point de départ pour créer vos conteneurs personnalisés.
Paramètres pour les conteneurs personnalisés
Cette section décrit les champs du paramètre containerSpec
de votre modèle que vous devrez peut-être spécifier lors de l'importation de modèles d'IA générative.
sharedMemorySizeMb
Certains modèles d'IA générative nécessitent davantage de mémoire partagée. La mémoire partagée est un mécanisme de communication inter-processus (IPC) qui permet à plusieurs processus d'accéder à un bloc de mémoire commun et de le manipuler. La taille de la mémoire partagée par défaut est de 64 Mo.
Certains serveurs de modèles, tels que vLLM ou Nvidia Triton, utilisent la mémoire partagée pour mettre en cache des données internes lors des inférences de modèle. Si les modèles partagés ne suffisent pas, certains serveurs de modèles ne peuvent pas diffuser de prédictions pour les modèles génératifs. La quantité de mémoire partagée nécessaire, le cas échéant, constitue un détail de la mise en œuvre de votre conteneur et de votre modèle. Consultez la documentation de votre serveur de modèles pour obtenir des instructions.
En outre, comme la mémoire partagée peut être utilisée pour la communication entre les GPU, l'utilisation d'une plus grande quantité de mémoire partagée peut améliorer les performances des accélérateurs sans fonctionnalités NVLink (par exemple, L4) si le conteneur de modèle nécessite une communication entre les GPU.
Pour savoir comment spécifier une valeur personnalisée pour la mémoire partagée, consultez la section Champs d'API liés au conteneur.
startupProbe
Une vérification de démarrage est une vérification facultative utilisée pour détecter lorsque le conteneur est démarré. Cette vérification permet de retarder la vérification de l'état et les vérifications d'activité jusqu'à ce que le conteneur démarre, empêchant ainsi l'arrêt prématuré des conteneurs qui démarrent lentement.
Pour en savoir plus, consultez la section Vérifications d'état.
healthProbe
La vérification d'état vérifie si un conteneur est prêt à accepter du trafic. Si la vérification d'état n'est pas fournie, Vertex AI utilise les vérifications d'état par défaut qui envoient une requête HTTP au port du conteneur et recherchent une réponse
200 OK
du serveur de modèles.Si votre serveur de modèles envoie une réponse
200 OK
avant que le modèle ne soit entièrement chargé, ce qui est possible, en particulier pour les modèles volumineux, la vérification de l'état réussit prématurément et Vertex AI achemine le trafic vers le conteneur avant qu'il ne soit prêt.Dans ce cas, spécifiez une vérification d'état personnalisée réussie qu'une fois le modèle entièrement chargé et prêt à accepter le trafic.
Pour en savoir plus, consultez la section Vérifications d'état.