Surveiller les VM Cloud TPU

Ce guide explique comment surveiller vos VM Cloud TPU à l'aide de Google Cloud Monitoring. Google Cloud Monitoring collecte automatiquement les metrics et les journaux de votre Cloud TPU et de son hôte Compute Engine. Ces données peuvent servir à surveiller l'état de votre ressource Cloud TPU et Compute Engine.

Les métriques vous permettent de suivre une quantité numérique au fil du temps, par exemple l'utilisation du processeur, l'utilisation du réseau ou la durée d'inactivité de TensorCore. Les journaux capturent des événements à un moment précis. Les entrées de journal sont écrites par votre propre code, par les services Google Cloud, par des applications tierces et par l'infrastructure Google Cloud. Vous pouvez également générer des métriques à partir des données présentes dans une entrée de journal en créant une métrique basée sur les journaux. Vous pouvez également définir des règles d'alerte basées sur des valeurs de métriques ou des entrées de journal.

Ce guide présente Google Cloud Monitoring et vous explique comment:

  • Afficher les métriques Cloud TPU
  • Configurer les règles d'alerte liées aux métriques Cloud TPU
  • Interroger les journaux Cloud TPU
  • Créer des métriques basées sur les journaux pour configurer des alertes et visualiser des tableaux de bord

Prérequis

Ce document part du principe que vous disposez de connaissances de base sur Google Cloud Monitoring. Vous devez disposer d'une VM Compute Engine et de ressources Cloud TPU avant de pouvoir commencer à générer et à utiliser Google Cloud Monitoring. Pour en savoir plus, consultez le guide de démarrage rapide de Cloud TPU.

Métriques

Les métriques Google Cloud sont générées automatiquement par les VM Compute Engine et l'environnement d'exécution Cloud TPU. Les métriques suivantes sont générées par les VM Cloud TPU:

  • memory/usage
  • network/received_bytes_count
  • network/sent_bytes_count
  • cpu/utilization
  • tpu/tensorcore/idle_duration

Il peut s'écouler jusqu'à 180 secondes entre le moment où une valeur de métrique est générée et son affichage dans l'explorateur de métriques.

Pour en savoir plus sur les métriques liées aux TPU, consultez la section Métriques TPU.

Utilisation de la mémoire

La métrique memory/usage suit la mémoire utilisée par la VM TPU, en octets. Cette métrique est échantillonnée toutes les 60 secondes.

Nombre d'octets reçus par le réseau

La métrique network/received_bytes_count suit le nombre total d'octets de données que la VM TPU a reçus sur le réseau à un moment donné.

Nombre d'octets envoyés par le réseau

La métrique network/sent_bytes_count suit le nombre d'octets cumulés que la VM TPU a envoyés sur le réseau à un moment donné.

Utilisation du CPU

La métrique cpu/utilization suit l'utilisation actuelle du processeur sur le nœud de calcul TPU, représentée sous forme de pourcentage, échantillonnée une fois par minute. Les valeurs sont généralement comprises entre 0,0 et 100,0, mais peuvent dépasser 100,0.

Durée d'inactivité de TensorCore

La métrique tpu/tensorcore/idle_duration suit le nombre de secondes d'inactivité du TensorCore de chaque puce TPU. Cette métrique est disponible pour chaque puce sur tous les TPU utilisés. Si un TensorCore est utilisé, la valeur de durée d'inactivité est réinitialisée. Lorsque TensorCore n'est plus utilisé, la valeur de la durée d'inactivité commence à augmenter.

Le graphique suivant montre la métrique tpu/tensorcore/idle_duration pour une VM TPU v2-8 qui comporte un nœud de calcul. Chaque nœud de calcul possède quatre chips. Dans cet exemple, les quatre chips ont les mêmes valeurs pour tpu/tensorcore/idle_duration. Les graphiques sont donc superposés les uns aux autres.

Image

Pour obtenir la liste complète des métriques générées par Cloud TPU, consultez la page Métriques Google Cloud TPU.

Afficher les métriques

Vous pouvez afficher les métriques à l'aide de l'Explorateur de métriques de la console Google Cloud.

Dans l'Explorateur de métriques, cliquez sur SÉLECTIONNER UNE MÉTRIQUE et recherchez TPU Worker. Si l'option Afficher uniquement les ressources et métriques actives est activée, seules les métriques des ressources actives sont affichées. Cliquez sur TPU Worker (Nœud de calcul TPU) pour afficher toutes les métriques disponibles.

Vous pouvez également accéder aux métriques à l'aide d'appels HTTP curl:

Utilisez le bouton Essayer dans la documentation de projects.timeSeries.query pour récupérer la valeur d'une métrique au cours de la période spécifiée.

  1. Saisissez le nom au format suivant: projects/{nom-projet}.
  2. Ajoutez une requête à la section Corps de la requête. Voici un exemple de requête permettant de récupérer la métrique de durée d'inactivité pour la zone spécifiée au cours des cinq dernières minutes.fetch tpu_worker | filter zone = 'us-central2-b' | metric tpu.googleapis.com/tpu/tensorcore/idle_duration | within 5m
  3. Cliquez sur Execute (Exécuter) pour effectuer l'appel et voir les résultats du message HTTP POST.

La documentation de référence sur le langage de requête Monitoring contient plus d'informations sur la personnalisation de cette requête.

Vous pouvez créer des règles d'alerte qui indiquent à Cloud Monitoring d'envoyer une alerte lorsqu'une condition est remplie.

Créer des alertes

La procédure décrite dans cette section montre comment ajouter une règle d'alerte pour la métrique Durée d'inactivité de TensorCore. Chaque fois que cette métrique dépasse 24 heures, Cloud Monitoring envoie un e-mail à l'adresse e-mail enregistrée.

  1. Accédez à la console Monitoring.
  2. Dans le volet de navigation, cliquez sur Alertes.
  3. Cliquez sur MODIFIER LES CHAÎNES DE NOTIFICATION.
  4. Sous Adresse e-mail, cliquez sur AJOUTER. Saisissez une adresse e-mail et un nom à afficher, puis cliquez sur ENREGISTRER.
  5. Cliquez sur CRÉER UNE RÈGLE.
  6. Cliquez sur SÉLECTIONNER UNE MÉTRIQUE, puis sélectionnez Durée d'inactivité de Tensorcore et cliquez sur APPLIQUER.
  7. Cliquez sur SUIVANT, puis sur Seuil.
  8. Pour Déclencheur d'alerte, sélectionnez À chaque infraction de série temporelle.
  9. Pour Position du seuil, sélectionnez Au-dessus du seuil.
  10. Dans le champ Valeur du seuil, saisissez 86400000.
  11. Cliquez sur NEXT (Suivant).
  12. Sous Canaux de notification, sélectionnez votre canal de notification par e-mail, puis cliquez sur OK.
  13. Saisissez un nom pour la règle d'alerte.
  14. Cliquez sur SUIVANT, puis sur CRÉER UNE RÈGLE.

Lorsque la durée d'inactivité de TensorCore dépasse 24 heures, un e-mail est envoyé à l'adresse e-mail que vous avez spécifiée.

Journalisation

Les entrées de journal sont écrites par des services Google Cloud, des services tiers, des frameworks de ML ou votre code. Vous pouvez afficher les journaux à l'aide de l'explorateur de journaux ou de l'API Logs. Pour en savoir plus sur la journalisation Google Cloud, consultez la page Google Cloud Logging.

Dans l'explorateur de journaux, sélectionnez un type de ressource:

  • Nœud de calcul Cloud TPU -> Zone -> ID du nœud
  • Ressource auditée -> Cloud TPU -> API (google.cloud.tpu.v2alpha1.Tpu.CreateNode, google.cloud.tpu.v2alpha1.Tpu.DeleteNode, google.cloud.tpu.v2alpha1.Tpu.UpdateNode)

Les journaux d'un nœud de calcul Cloud TPU contiennent des informations sur un nœud de calcul Cloud TPU spécifique dans une zone spécifique, par exemple la quantité de mémoire disponible sur ce nœud de calcul (system_available_memory_GiB).

Les journaux de ressources auditées contiennent des informations sur le moment où une API Cloud TPU spécifique a été appelée et sur l'auteur de l'appel. Exemples : CreateNode, UpdateNode et DeleteNode.

Les frameworks de ML peuvent générer des journaux dans stdout et stderr. Ces journaux sont contrôlés par des variables d'environnement et lus par votre script d'entraînement.

Votre code peut écrire des journaux dans Google Cloud Logging. Pour en savoir plus, consultez Écrire des journaux standards et Écrire des journaux structurés.

Pour afficher les journaux Cloud TPU, procédez comme suit:

  1. Accéder à la visionneuse de journaux Google Cloud
  2. Cliquez sur le menu déroulant Ressource.
  3. Cliquez sur Nœud de calcul Cloud TPU.
  4. Sélectionner une zone
  5. Sélectionnez le Cloud TPU qui vous intéresse
  6. Cliquez sur Appliquer. Les journaux sont affichés dans les résultats de la requête

Pour afficher les journaux des ressources auditées:

  1. Accéder à la visionneuse de journaux Google Cloud
  2. Cliquez sur le menu déroulant Ressource.
  3. Cliquez sur Ressource auditée, puis sur Cloud TPU.
  4. Choisissez l'API Cloud TPU qui vous intéresse
  5. Cliquez sur Appliquer. Les journaux sont affichés dans les résultats de la requête
  6. Choisir les API commençant par google.cloud.tpu.v2alpha1.Tpu

Interroger les journaux Google Cloud

Lorsque vous consultez les journaux dans la console Google Cloud, la page exécute une requête par défaut. Pour afficher la requête, cliquez sur le bouton d'activation Show query. Vous pouvez modifier la requête par défaut ou en créer une autre. Pour en savoir plus, consultez la page Créer des requêtes dans l'explorateur de journaux.

Journaux de ressources auditées

Cliquez sur une entrée de journal pour la développer. Vous y trouverez un champ appelé protoPayload. Développez protoPayload pour faire apparaître plusieurs sous-champs:

  • logName: nom du journal
  • protoPayload -> @type: type de journal
  • resourceName: nom de la ressource Cloud TPU
  • methodName: nom de la méthode appelée (journaux d'audit uniquement)
  • request -> @type: type de requête
  • request -> node: détails sur le nœud Cloud TPU
  • request -> node_id: nom du TPU
  • Gravité: gravité du journal

Journaux des nœuds de calcul TPU

Cliquez sur une entrée de journal pour la développer. Vous y trouverez un champ appelé jsonPayload. Développez jsonPayload pour afficher plusieurs sous-champs:

  • accelerator_type: type d'accélérateur
  • consumer_project: projet contenant le Cloud TPU
  • evententry_timestamp: l'heure à laquelle le journal a été généré.
  • system_available_memory_GiB: mémoire disponible sur le nœud de calcul Cloud TPU (0 à 350 Gio)

Créer des métriques basées sur des journaux

Cette section explique comment créer les métriques basées sur les journaux utilisées pour configurer les tableaux de bord et les alertes de surveillance. Pour en savoir plus sur la création automatisée de métriques basées sur les journaux, consultez la page Créer des métriques basées sur les journaux de manière automatisée à l'aide de l'API REST Cloud Logging.

L'exemple suivant utilise le sous-champ system_available_memory_GiB pour montrer comment créer une métrique basée sur les journaux pour surveiller la mémoire disponible du nœud de calcul Cloud TPU.

  1. Accéder à l'explorateur de journaux
  2. Dans la zone de requête, saisissez la requête suivante pour extraire toutes les entrées de journal pour lesquelles system_available_memory_GiB est défini pour le nœud de calcul Cloud TPU principal:

    resource.type=tpu_worker
    resource.labels.project_id=your-project
    resource.labels.zone=your-tpu-zone
    resource.labels.node_id=your-tpu-name
    resource.labels.worker_id=0
    logName=projects/your-project/logs/tpu.googleapis.com%2Fruntime_monitor
    jsonPayload.system_available_memory_GiB:*
    
  3. Cliquez sur Créer une métrique pour afficher l'Éditeur de métriques.

  4. Sous Type de métrique, sélectionnez Distribution.

  5. Saisissez un nom, une description facultative et une unité de mesure pour votre métrique. Saisissez "matrix_unit_utilization_percent" et "MXU use" (Utilisation de MXU) dans les champs Name (Nom) et Description, respectivement.

  6. Le filtre est prérempli avec le script que vous avez saisi dans l'explorateur de journaux.

  7. Cliquez sur CRÉER UNE MÉTRIQUE.

  8. Cliquez sur Explorer les métriques pour afficher votre nouvelle métrique. L'affichage des métriques peut prendre quelques minutes

Créer des métriques basées sur les journaux avec l'API REST Cloud Logging

Vous pouvez également créer des métriques basées sur les journaux via l'API Cloud Logging. Pour en savoir plus, consultez la page Créer une métrique de distribution.

Créer des tableaux de bord et des alertes à l'aide de métriques basées sur les journaux

Les tableaux de bord sont utiles pour visualiser les métriques (avec un délai d'environ deux minutes). Les alertes permettent d'envoyer des notifications en cas d'erreur. Pour en savoir plus, consultez les pages suivantes :

Création de tableaux de bord

Pour créer un tableau de bord dans Cloud Monitoring pour la métrique Durée d'inactivité de Tensorcore, procédez comme suit:

  1. Accéder à la console Monitoring
  2. Dans le volet de navigation, cliquez sur Tableaux de bord.
  3. Cliquez sur CRÉER UN TABLEAU DE BORD, puis sur Ajouter un widget.
  4. Sélectionnez le type de graphique que vous souhaitez ajouter. Pour cet exemple, choisissez Courbes.
  5. Saisissez le titre du widget.
  6. Cliquez sur le menu déroulant Sélectionner une métrique et saisissez "Durée d'inactivité Tensorcore" dans le champ de filtre.
  7. Dans la liste des métriques, sélectionnez TPU Worker -> Tpu -> Tensorcore (Durée d'inactivité Tensorcore).
  8. Pour filtrer le contenu du tableau de bord, cliquez sur le menu déroulant Filtre.
  9. Sous Libellés de ressources, sélectionnez project_id.
  10. Choisissez un comparateur et saisissez une valeur dans le champ Valeur.
  11. Cliquez sur Appliquer.