Éléments à prendre en compte pour le déploiement de modèles

Cette page décrit le processus de déploiement, ainsi que quelques scénarios de déploiement courants et les cas d'utilisation associés.

Déroulement du déploiement d'un modèle

Lorsque vous déployez un modèle sur un point de terminaison, vous associez des ressources physiques (machine) à ce modèle pour lui permettre de diffuser des prédictions en ligne. Les prédictions en ligne ont des exigences de faible latence. Fournir des ressources au modèle à l'avance réduit la latence.

Le type d'entraînement (AutoML ou personnalisé) et le type de données (AutoML) du modèle déterminent les types de ressources physiques disponibles pour le modèle. Une fois que vous avez choisi les ressources pour un déploiement de modèle, vous ne pouvez plus les mettre à jour ; vous devez créer un autre déploiement.

La ressource de point de terminaison fournit le point de terminaison (URL) du service que vous utilisez pour demander la prédiction. Exemple :

https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Motifs de déploiement de plusieurs modèles sur le même point de terminaison

Le déploiement de deux modèles sur le même point de terminaison vous permet de remplacer progressivement un modèle par l'autre. Par exemple, supposons que vous utilisiez un modèle et que vous ayez trouvé un moyen d'améliorer la précision de ce modèle avec de nouvelles données d'entraînement. Toutefois, vous ne souhaitez pas mettre à jour votre application pour qu'elle pointe vers une nouvelle URL de point de terminaison et vous ne souhaitez pas modifier soudainement l'application. Vous pouvez ajouter le nouveau modèle au même point de terminaison, diffuser un petit pourcentage de trafic, puis augmenter progressivement la répartition du trafic pour le nouveau modèle jusqu'à ce qu'il diffuse 100% du trafic.

Étant donné que les ressources sont associées au modèle plutôt qu'au point de terminaison, vous pouvez déployer des modèles de différents types sur le même point de terminaison. Toutefois, la bonne pratique consiste à déployer des modèles d'un type spécifique (texte AutoML, tabulaire AutoML, modèle personnalisé, etc.) sur un point de terminaison. Cette configuration est plus facile à gérer.

Motifs de déploiement d'un modèle sur plusieurs points de terminaison

Vous souhaitez peut-être déployer vos modèles avec différentes ressources pour divers environnements d'application, tels que les tests et la production. Vous pouvez également être compatible avec différents SLO pour vos requêtes de prédiction. Il est possible que l'une de vos applications présente des besoins de performances bien plus élevés que les autres. Dans ce cas, vous avez la possibilité de déployer ce modèle sur un point de terminaison plus performant avec davantage de ressources de machine. Pour optimiser les coûts, vous pouvez également déployer le modèle sur un point de terminaison à faible performances avec moins de ressources de machine.

Étape suivante