Déployer des modèles d'IA générative

Certains modèles d'IA générative, tels que Gemini, disposent d'API gérées et sont prêts à accepter des requêtes sans déploiement. Pour obtenir la liste des modèles disposant d'API gérées, consultez la page API de modèles de fondation.

D'autres modèles d'IA générative doivent être déployés sur un point de terminaison avant de pouvoir accepter des requêtes. Il existe deux types de modèles génératifs à déployer :

Les modèles réglés, que vous créez en affinant un modèle de fondation compatible avec vos propres données.
Les modèles génératifs sans API gérées. Dans Model Garden, il s'agit de modèles qui ne comportent pas d'étiquette API disponible ou Vertex AI Studio (par exemple, Llama 2).

Lorsque vous déployez un modèle sur un point de terminaison, Vertex AI associe des ressources de calcul et un URI au modèle afin qu'il puisse diffuser les requêtes.

Déployer un modèle réglé

Les modèles réglés sont automatiquement importés dans Vertex AI Model Registry et déployés vers un endpoint Vertex AI. Les modèles réglés n'apparaissent pas dans Model Garden, car ils sont réglés avec vos données. Pour plus d'informations, consultez la page Présentation du réglage de modèle.

Une fois que le point de terminaison est actif, il est prêt à accepter les requêtes sur son URI. Le format de l'appel d'API pour un modèle réglé est identique à celui du modèle de fondation à partir duquel il a été réglé. Par exemple, si votre modèle est réglé sur Gemini, votre requête doit suivre l'API Gemini.

Veillez à envoyer les requêtes au point de terminaison de votre modèle réglé, plutôt qu'à l'API gérée. Le point de terminaison du modèle réglé est au format suivant :

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Pour obtenir l'ID du point de terminaison, consultez la page Afficher ou gérer un point de terminaison.

Pour en savoir plus sur la mise en forme des requêtes, consultez la documentation de référence de l'API de modèle.

Déployer un modèle génératif sans API gérée

Pour utiliser un modèle du Model Garden qui ne possède pas d'API gérée, vous devez importer le modèle dans Model Registry et le déployer sur un point de terminaison avant de pouvoir envoyer des requêtes. Cette opération s'apparente à l'importation et au déploiement d'un modèle entraîné personnalisé pour la prédiction en ligne dans Vertex AI.

Pour déployer l'un de ces modèles, accédez au Model Garden et sélectionnez le modèle que vous souhaitez déployer.

Accéder à la page "Jardin de modèles"

Chaque fiche de modèle affiche une ou plusieurs des options de déploiement suivantes :

Bouton Déployer : la plupart des modèles génératifs du Model Garden disposent d'un bouton Déployer qui vous guide tout au long du déploiement sur Vertex AI. Si vous ne voyez pas de bouton Déployer, passez au point suivant.

Pour le déploiement sur Vertex AI, vous pouvez utiliser les paramètres suggérés ou les modifier. Vous pouvez également définir des paramètres de déploiement Avancé pour, par exemple, sélectionner une réservation Compute Engine.

Remarque : Certains modèles sont également compatibles avec le déploiement sur Google Kubernetes Engine, une solution non gérée qui vous offre encore plus de contrôle. Pour plus d'informations, consultez la section Diffuser un modèle avec un seul GPU dans GKE.
Bouton Ouvrir le notebook : cette option permet d'ouvrir un notebook Jupyter. Chaque fiche de modèle affiche cette option. Le notebook Jupyter inclut des instructions et un exemple de code permettant d'importer le modèle dans Model Registry, de le déployer sur un point de terminaison et d'envoyer une requête.

Une fois le déploiement terminé et le point de terminaison actif, il est prêt à accepter les requêtes sur son URI. Le format de l'API est predict et le format de chaque instance dans le corps de la requête dépend du modèle. Pour en savoir plus, consultez les ressources suivantes :

Assurez-vous de disposer d'un quota de machines suffisant pour déployer votre modèle. Pour afficher votre quota actuel ou demander une augmentation de quota, accédez à la page Quotas dans la console Google Cloud.

Accéder à la section "Quotas"

Filtrez ensuite les résultats avec le nom de quota Custom Model Serving afin d'afficher les quotas pour la prédiction en ligne. Pour en savoir plus, consultez la page Afficher et gérer les quotas.

Assurer la capacité des modèles déployés avec des réservations Compute Engine

Vous pouvez déployer des modèles Model Garden sur des ressources de VM allouées via des réservations Compute Engine. Les réservations vous permettent de vous assurer que la capacité est disponible lorsque vos requêtes de prédiction de modèle en ont besoin. Pour en savoir plus, consultez la section Utiliser des réservations avec la prédiction.

Afficher ou gérer un modèle

Pour les modèles réglés, vous pouvez afficher le modèle et son job de réglage dans la console Google Cloud sur la page Régler et distiller.

Accéder à la page "Régler et distiller"

Vous pouvez également afficher et gérer tous vos modèles importés dans Model Registry.

Accéder à la page Registre de modèles

Dans Model Registry, un modèle réglé est classé dans la catégorie Grand modèle et possède des étiquettes qui spécifient le modèle de fondation ainsi que le pipeline ou le job de réglage utilisé pour le réglage.

Les modèles déployés avec le bouton Déployer indiqueront Model Garden en tant que Source. Notez que si le modèle est mis à jour dans Model Garden, votre modèle importé dans Model Registry n'est pas mis à jour.

Pour plus d'informations, consultez la Présentation de Vertex AI Model Registry.

Afficher ou gérer un point de terminaison

Pour afficher et gérer votre point de terminaison, accédez à la page Prédiction en ligne de Vertex AI. Par défaut, le nom du point de terminaison est identique au nom du modèle.

Accéder à la page Prédiction en ligne

Pour en savoir plus, consultez la section Déployer un modèle sur un point de terminaison.

Tarifs

Pour les modèles réglés, vous êtes facturé par jeton au même tarif que le modèle de fondation à partir duquel votre modèle a été réglé. Le point de terminaison n'engendre pas de frais supplémentaires car le réglage est implémenté comme une petite adaptation en complément du modèle de fondation. Pour en savoir plus, consultez les tarifs de l'IA générative sur Vertex AI.

Pour les modèles sans API gérées, vous êtes facturé pour les heures de fonctionnement des machines utilisées par votre point de terminaison au même tarif que les prédictions en ligne de Vertex AI. Vous n'êtes pas facturé par jeton. Pour en savoir plus, consultez les tarifs des prédictions dans Vertex AI.