Cette ancienne version d'AI Platform Prediction est obsolète et ne sera plus disponible sur Google Cloud après le 31 janvier 2025. Tous les modèles, les métadonnées associées et les déploiements seront supprimés après le 31 janvier 2025. Migrez vos ressources vers Vertex AI pour obtenir de nouvelles fonctionnalités de machine learning qui ne sont pas disponibles dans AI Platform.

Cette page a été traduite par l'API Cloud Translation.

Surveiller les versions des modèles

L'analyse des performances de votre modèle est un aspect important de la gestion des modèles de machine learning. Vous pouvez surveiller les tendances du trafic, les taux d'erreur, la latence et l'utilisation des ressources de vos modèles de manière à identifier les problèmes qu'ils présentent. Ainsi, vous connaîtrez le type de machine le plus adapté à votre modèle et serez en mesure d'optimiser la latence et les coûts.

Vous pouvez également utiliser Cloud Monitoring pour configurer des alertes basées sur les métriques. Par exemple, vous pouvez recevoir des alertes lorsque la latence de prédiction du modèle devient trop élevée. AI Platform Prediction exporte ses métriques vers Cloud Monitoring. Chaque type de métrique AI Platform Prediction inclut "prediction" dans son nom, comme dans ml.googleapis.com/prediction/online/replicas ou ml.googleapis.com/prediction/online/accelerator/duty_cycle.

Surveiller les métriques de performances

Des informations sur les tendances du trafic, les erreurs et la latence de votre modèle sont disponibles dans Google Cloud Console. Les graphiques suivants sont disponibles sur la page Détails de la version, dans l'onglet Performances :

Prédictions : nombre de prédictions par seconde pour les prédictions en ligne et par lot. Si vous avez plusieurs instances par requête, chaque instance est comptabilisée dans ce graphique.
Erreurs : taux d'erreurs générées par votre modèle. Un taux d'erreurs élevé indique généralement que le modèle ou les requêtes adressées au modèle présentent un problème. Les codes de réponse vous permettent de déterminer quelles erreurs se produisent.
Latence du modèle et latence totale : latence de votre modèle. La latence totale correspond au temps total passé par la requête dans le service. La latence du modèle correspond au temps passé à effectuer le calcul.

Pour afficher les graphiques des performances, procédez comme suit :

Accédez à la page Modèles d'AI Platform Prediction dans la console Google Cloud :

Accéder à la page des modèles
Cliquez sur le nom de votre modèle dans la liste pour accéder à la page Détails du modèle.
Cliquez sur le nom de votre version dans la liste pour accéder à la page Détails de la version.
S'il n'est pas déjà sélectionné, cliquez sur l'onglet Performances.
Faites défiler l'écran pour afficher chaque graphique.

Surveiller la consommation de ressources

Les graphiques d'utilisation des ressources pour vos versions de modèle qui utilisent des types de machines Compute Engine (N1) sont disponibles dans la console Google Cloud. Les graphiques suivants sont disponibles sur la page Détails de la version, dans l'onglet Utilisation des ressources :

Instance dupliquée : nombre d'instances dupliquées pour votre version. Si vous utilisez le scaling manuel, ce graphique indique le nombre de nœuds choisis lors du déploiement ou de la dernière mise à jour de la version. Si vous avez activé l'autoscaling, le graphique montre l'évolution du nombre d'instances dupliquées du modèle au fil du temps en réponse aux modifications du trafic.
Utilisation du processeur et de la mémoire, cycle d'utilisation moyen et utilisation de la mémoire de l'accélérateur : utilisation du processeur, du GPU et de la mémoire par la version, pour chaque instance dupliquée.
Octets réseau envoyés et octets réseau reçus : utilisation du réseau par la tâche, mesurée en octets par seconde.

Remarque : Le graphique Octets réseau reçus peut afficher des valeurs inattendues pour les versions du modèle avec autoscaling. Nous avons connaissance du problème et nous nous efforçons de le résoudre.

Pour afficher les graphiques d'utilisation des ressources, procédez comme suit :

Accédez à la page Modèles d'AI Platform Prediction dans la console Google Cloud :

Accéder à la page des modèles
Cliquez sur le nom de votre modèle dans la liste pour accéder à la page Détails du modèle.
Cliquez sur le nom de votre version dans la liste pour accéder à la page Détails de la version.
Cliquez sur l'onglet Utilisation des ressources.
Faites défiler l'écran pour afficher chaque graphique.

Étape suivante

Résoudre les problèmes liés à la version de votre modèle
Sélectionner un type de machine pour réduire la latence ou les coûts