Métriques Cloud Monitoring pour Vertex AI

Vertex AI exporte des métriques vers Cloud Monitoring. Vertex AI affiche également certaines de ces métriques dans la section "Vertex AI" de la console Google Cloud. Vous pouvez utiliser Cloud Monitoring pour créer des tableaux de bord ou configurer des alertes basées sur les métriques. Par exemple, vous pouvez recevoir des alertes lorsque la latence de prédiction du modèle dans Vertex AI devient trop élevée.

Les sections suivantes décrivent les métriques fournies dans la section "Vertex AI" de la console Google Cloud. Il peut s'agir de métriques directes ou bien de métriques calculées, qui sont envoyées par Vertex AI à Cloud Monitoring.

Pour afficher la liste de la plupart des métriques exportées par Vertex AI vers Cloud Monitoring, consultez la section "aiplatform" de la page Surveillance des métriques Google Cloud. Pour connaître les métriques d'entraînement personnalisées, consultez les types de métriques commençant par training dans la section "ml" de cette page.

Métriques de surveillance d'entraînement personnalisées

Lorsque vous effectuez un entraînement personnalisé, vous pouvez surveiller les types d'utilisation de ressources suivants pour chaque nœud d'entraînement :

  • Utilisation du processeur ou du GPU de chaque nœud d'entraînement
  • Utilisation de la mémoire pour chaque nœud d'entraînement
  • Utilisation du réseau (octets envoyés par seconde et octets reçus par seconde)

Si vous utilisez les réglages d'hyperparamètres, vous pouvez afficher les métriques de chaque essai.

Pour afficher ces métriques après avoir lancé l'entraînement personnalisé, procédez comme suit :

  1. Dans la console Google Cloud, accédez à l'une des pages suivantes, selon que vous utilisez les réglages d'hyperparamètres :

  2. Cliquez sur le nom de votre ressource d'entraînement personnalisé.

    Si vous avez créé une ressource TrainingPipeline personnalisée, cliquez sur le nom de la tâche créée par TrainingPipeline. par exemple, TRAINING_PIPELINE_NAME-custom-job ou TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Cliquez sur l'onglet Processeur, GPU ou Réseau pour afficher les graphiques d'utilisation de la métrique qui vous intéresse.

    Si vous utilisez les réglages d'hyperparamètres, vous pouvez cliquer sur une ligne du tableau Essais de réglage d'hyperparamètres pour afficher les métriques d'un essai spécifique.

Pour afficher des métriques plus anciennes ou pour personnaliser l'affichage des métriques, utilisez Monitoring. Vertex AI exporte les métriques d'entraînement personnalisées vers Monitoring en tant que types de métriques avec le préfixe ml.googleapis.com/training. Le type de ressource surveillée est cloudml_job.

Notez qu'AI Platform Training exporte les métriques vers Monitoring avec les mêmes types de métriques et types de ressources.

Métriques de surveillance des points de terminaison

Après avoir déployé un modèle sur un point de terminaison, vous pouvez surveiller le point de terminaison pour comprendre les performances et l'utilisation des ressources du modèle. Vous pouvez suivre des métriques telles que les modèles de trafic, les taux d'erreur, la latence et l'utilisation des ressources pour vous assurer que votre modèle répond de manière cohérente et prévisible aux requêtes. Par exemple, vous pouvez redéployer votre modèle avec un autre type de machine pour optimiser les coûts. Une fois la modification effectuée, vous pouvez surveiller le modèle pour vérifier si vos modifications ont eu un impact négatif sur ses performances.

Dans Cloud Monitoring, le type de ressource surveillée pour les modèles déployés est aiplatform.googleapis.com/Endpoint.

Statistiques relatives aux performances

Les métriques de performance peuvent vous aider à trouver des informations sur les modèles de trafic, les erreurs et la latence de votre modèle. Vous pouvez consulter les métriques de performances suivantes dans la console Google Cloud.

  • Prédictions par seconde : nombre de prédictions par seconde pour les prédictions en ligne et par lot. Si vous avez plusieurs instances par requête, chaque instance est comptabilisée dans ce graphique.
  • Pourcentage d'erreur de prédiction : taux d'erreurs produites par le modèle. Un taux d'erreur élevé peut indiquer un problème avec le modèle ou les requêtes qu'il reçoit. Consultez le graphique des codes de réponse pour déterminer le type des erreurs.
  • Latence du modèle (uniquement pour les modèles tabulaires et personnalisés) : temps passé à effectuer le calcul.
  • Excès de latence (uniquement pour les modèles tabulaires et personnalisés) : temps total consacré au traitement d'une requête, hors calcul.
  • Durée totale de la latence : temps total passé par une requête dans le service, qui correspond à la latence du modèle plus la latence excessive.

Utilisation des ressources

Les métriques d'utilisation des ressources peuvent vous aider à suivre l'utilisation du processeur, de la mémoire et du réseau de votre modèle. Vous pouvez consulter les métriques d'utilisation suivantes dans la console Google Cloud.

  • Nombre d'instances dupliquées : nombre d'instances dupliquées actives utilisées par le modèle déployé.
  • Cible d'instances dupliquées : nombre d'instances dupliquées actives requises pour le modèle déployé.
  • Utilisation du processeur : taux d'utilisation de cœur CPU actuel de l'instance dupliquée du modèle déployé. 100 % représente un cœur CPU entièrement utilisé. Une instance dupliquée peut donc dépasser les 100 % d'utilisation si son type de machine comporte plusieurs cœurs.
  • Utilisation de la mémoire : quantité de mémoire allouée par l'instance dupliquée du modèle déployé et actuellement utilisée.
  • Nombre d'octets envoyés sur le réseau : nombre d'octets envoyés sur le réseau par l'instance dupliquée du modèle déployé.
  • Nombre d'octets reçus sur le réseau : nombre d'octets reçus sur le réseau par l'instance dupliquée du modèle déployé.
  • Cycle d'utilisation moyenne de l'accélérateur : durée moyenne de la dernière période d'échantillonnage pendant laquelle un ou plusieurs accélérateurs ont été en mode de traitement actifs.
  • Utilisation de la mémoire de l'accélérateur : quantité de mémoire allouée par l'instance dupliquée du modèle déployé.

Afficher les graphiques des métriques de surveillance des points de terminaison

  1. Accédez à la page Points de terminaison de Vertex AI dans la console Google Cloud.

    Accéder à la page "Points de terminaison"

  2. Cliquez sur le nom d'un point de terminaison pour afficher ses métriques.

  3. Sous les intervalles du graphique, cliquez sur Performances ou sur Utilisation des ressources pour afficher les métriques de performances ou d'utilisation des ressources.

    Vous pouvez sélectionner différents intervalles pour afficher les valeurs de métriques sur une période donnée, par exemple une heure, 12 heures ou 14 jours.

    Si plusieurs modèles sont déployés sur le point de terminaison, vous pouvez sélectionner ou désélectionner des modèles pour afficher ou masquer les métriques correspondant à des modèles spécifiques. Si vous sélectionnez plusieurs modèles, la console regroupe certaines métriques de modèle dans un même graphique. Par exemple, si une métrique ne fournit qu'une valeur par modèle, la console regroupe les métriques du modèle dans un même graphique (par exemple, l'utilisation du processeur). Pour les métriques pouvant avoir plusieurs valeurs par modèle, la console fournit un graphique pour chaque modèle. Par exemple, la console fournit un graphique des codes de réponse pour chaque modèle.

Métriques de surveillance Vertex AI Feature Store

Une fois que vous avez créé un magasin de caractéristiques, vous pouvez surveiller ses performances et son utilisation des ressources, telles que les latences de diffusion de l'espace de stockage en ligne ou le nombre de nœuds inclus dans l'espace de stockage en ligne. Par exemple, vous pouvez mettre à jour le nombre de nœuds inclus dans l'espace de stockage en ligne d'un magasin de caractéristiques, puis surveiller les modifications apportées aux métriques de diffusion de l'espace de stockage en ligne.

Dans Cloud Monitoring, le type de ressource surveillée d'un magasin de caractéristiques est aiplatform.googleapis.com/Featurestore.

Métriques

  • Taille de requête : taille de requête par type d'entité dans votre featurestore.
  • Offline storage write for streaming write (écriture dans le stockage hors connexion pour l'écriture en flux) : nombre de requêtes d'écriture en flux traitées pour le stockage hors connexion.
  • Streaming write to offline storage delay time (délai de l'écriture en flux dans le stockage hors connexion) : temps écoulé (en secondes) entre l'appel à l'API d'écriture et l'écriture dans l'espace de stockage hors connexion.
  • Nombre de nœuds: nombre de nœuds de diffusion en ligne pour votre featurestore.
  • Latence : temps total passé par une requête de diffusion en ligne ou d'ingestion en flux continu dans le service.
  • Requêtes par seconde : nombre de requêtes de diffusion en ligne ou d'ingestion en flux continu traitées par votre magasin de caractéristiques.
  • Pourcentage d'erreurs: pourcentage d'erreurs générées par votre magasin de caractéristiques pour les requêtes de diffusion en ligne ou d'ingestion en flux continu.
  • Utilisation du processeur : part du processeur allouée par le magasin de caractéristiques et actuellement utilisée par l'espace de stockage en ligne. Ce nombre peut dépasser 100 % si l'espace de stockage de la diffusion en ligne est surchargé. Nous vous conseillons d'augmenter le nombre de nœuds de diffusion en ligne du magasin de caractéristiques pour réduire l'utilisation du processeur.
  • Utilisation du processeur - Nœud le plus sollicité: charge du processeur pour le nœud le plus sollicité dans l'espace de stockage en ligne du featurestore.
  • Stockage hors connexion total: quantité de données stockées dans le stockage hors connexion du featurestore.
  • Stockage en ligne total: quantité de données stockées dans le stockage en ligne du featurestore.
  • Débit de diffusion en ligne : débit des requêtes de diffusion en ligne, exprimé en Mo/s.

Afficher les graphiques des métriques de surveillance des magasins de caractéristiques

  1. Accédez à la page Caractéristiques de Vertex AI dans la console Google Cloud.

    Accéder à la page "Fonctionnalités"

  2. Dans la colonne Featurestore, cliquez sur le nom d'un magasin de caractéristiques pour afficher ses métriques.

    Vous pouvez sélectionner différents intervalles pour afficher les valeurs des métriques sur une période donnée, par exemple une heure, un jour ou une semaine.

    Pour certaines métriques de diffusion en ligne, vous pouvez choisir d'afficher les métriques pour une méthode particulière, qui répartit les métriques par type d'entité. Par exemple, vous pouvez afficher la latence de la méthode ReadFeatureValues ou de la méthode StreamingReadFeatureValues.