Surveiller votre cluster Ray sur Vertex AI

Cette page explique comment afficher les journaux de suivi associés à vos clusters Ray et surveiller les métriques Ray sur Vertex AI. Des conseils pour le débogage des clusters Ray sont également fournis.

Afficher les journaux

Lorsque vous effectuez des tâches avec votre cluster Ray sur Vertex AI, les journaux de suivi sont automatiquement générés et stockés dans Cloud Logging et le tableau de bord Ray Open Source. Cette section explique comment accéder aux journaux générés via la console Google Cloud.

Avant de commencer, veillez à lire la Présentation de Ray sur Vertex AI et à configurer tous les outils prérequis.

Tableau de bord OSS Ray

Vous pouvez afficher les fichiers journaux Ray Open Source via le tableau de bord Ray OSS :

  1. Dans la console Google Cloud, accédez à la page Ray sur Vertex AI.

    Accéder à la page Ray sur Vertex AI

  2. Sur la ligne du cluster que vous avez créé, sélectionnez le menu Autres actions.

  3. Sélectionnez le lien vers le tableau de bord OSS Ray. Le tableau de bord s'ouvre dans un autre onglet.

  4. Accédez à la vue Journaux en haut à droite du menu :

    Sélectionner les journaux du tableau de bord Ray

  5. Cliquez sur chaque nœud pour afficher les fichiers journaux qui lui sont associés.

Console Cloud Logging

  1. Dans la console Google Cloud, accédez à la page Explorateur de journaux.

    Accéder à l'explorateur de journaux

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Logging.

  2. Sélectionnez un projet, une organisation ou un dossier Google Cloud existant.

  3. Pour afficher tous les journaux Ray, saisissez la requête suivante dans le champ de l'éditeur de requête, puis cliquez sur Exécuter la requête :

    resource.labels.task_name="ray-cluster-logs"
  4. Pour limiter les journaux à un cluster Ray spécifique, ajoutez la ligne suivante à la requête, puis cliquez sur Exécuter la requête :

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Remplacez CLUSTER_NAME par le nom de votre cluster Ray. Dans la console Google Cloud, accédez à Vertex AI > Ray sur Vertex AI. La liste des noms de clusters s'affiche dans chaque région.

  5. Pour limiter les journaux à un fichier journal spécifique tel que raylet.out, cliquez sur le nom du journal sous Champs de journal -> Nom du journal.

  6. Vous pouvez regrouper des entrées de journal similaires :

    1. Dans les résultats de la requête, cliquez sur une entrée de journal pour développer le journal.

    2. Dans le champ jsonPayload, cliquez sur la valeur tailed_path. Un menu déroulant apparaît.

    3. Cliquez sur Afficher les entrées correspondantes.

Désactiver les journaux

Par défaut, Cloud Logging est activé pour Ray sur Vertex AI.

  • Pour désactiver l'exportation des journaux Ray vers Cloud Logging, utilisez la commande suivante du SDK Vertex AI pour Python :

    vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
    

Vous pouvez afficher les fichiers journaux Ray sur le tableau de bord Ray, même si la fonctionnalité Cloud Logging pour Ray sur Vertex AI est désactivée.

Surveiller les métriques

Vous pouvez afficher les métriques Ray sur Vertex AI de différentes manières à l'aide de Google Cloud Monitoring (GCM). Vous pouvez également exporter les métriques de GCM vers votre propre serveur Grafana.

Surveiller les métriques dans GCM

Vous pouvez afficher les métriques Ray sur Vertex AI dans GCM de deux manières différentes.

  • Utilisez la vue directe sous Explorateur de métriques.
  • Importez le tableau de bord Grafana.

Explorateur de métriques

Pour utiliser la vue directe dans Explorateur de métriques, procédez comme suit :

  1. Accédez à la console Google Cloud Monitoring.
  2. Sous Explorer, sélectionnez Explorateur de métriques.
  3. Sous Ressources actives, sélectionnez Cible Prometheus. Les Catégories de métriques actives s'affichent.
  4. Sélectionnez Ray.

    Une liste de métriques s'affiche :

    Sélectionner la métrique
  5. Sélectionnez les métriques que vous souhaitez surveiller. Exemple :
    1. Choisissez le pourcentage d'utilisation du processeur en tant que métrique surveillée :
      utilization-target
    2. Sélectionnez un filtre. Par exemple, sélectionnez un cluster :
      ajouter le filtre nécessaire Utilisez l'ID de cluster pour surveiller uniquement les métriques supérieures pour un cluster spécifique. Pour trouver votre ID de cluster, procédez comme suit :
      1. Dans la console Google Cloud, accédez à la page Ray.

        Accéder à Ray

      2. Assurez-vous que vous êtes dans le projet dans lequel vous souhaitez créer le test.
        Projet Vertex AI sélectionné
      3. Sous Nom, une liste d'ID de cluster s'affiche.
      Sélectionner la métrique
    3. Sélectionnez la méthode Agrégation pour afficher les métriques. En d'autres termes, vous pouvez choisir d'afficher les métriques non agrégées, qui indiquent l'utilisation du processeur pour chaque processus Ray :
      métriques non agrégées

Tableau de bord GCM

Pour importer un tableau de bord Grafana pour Ray sur Vertex AI, suivez les instructions du tableau de bord Cloud Monitoring, Importer votre propre tableau de bord Grafana.

Tableau de bord Monitoring

Il vous suffit d'un fichier JSON de tableau de bord Grafana. OSS Ray est compatible avec cette configuration manuelle en fournissant le fichier JSON de tableau de bord Grafana par défaut.

Surveiller les métriques de Grafana appartenant à l'utilisateur

Si vous disposez déjà d'un serveur Grafana en cours d'exécution, il est également possible d'exporter toutes les métriques du cluster Ray sur Vertex AI Prometheus vers votre serveur Grafana existant. Pour ce faire, suivez les instructions de GMP Exécuter une requête avec Grafana. Cela vous permet d'ajouter une source de données Grafana à votre serveur Grafana existant, et d'utiliser le synchroniseur de sources de données pour synchroniser la nouvelle source de données Grafana Prometheus avec les métriques Ray sur Vertex AI.

Il est important de configurer et d'authentifier la source de données Grafana qui vient d'être ajoutée à l'aide du synchroniseur de sources de données. Suivez la procédure décrite dans Configurer et authentifier la source de données Grafana.

Une fois la synchronisation effectuée, vous pouvez créer et ajouter le tableau de bord dont vous avez besoin en fonction des métriques Ray sur Vertex AI.

Par défaut, les collections de métriques Ray sur Vertex AI sont activées. Voici comment les désactiver à l'aide du SDK Vertex AI pour Python :

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Déboguer des clusters Ray

Pour déboguer les clusters Ray, utilisez l'interface système interactive du nœud principal :

Console Google Cloud

Pour accéder au shell interactif du nœud principal, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Ray sur Vertex AI.
    Accéder à Ray sur Vertex AI
  2. Assurez-vous de vous trouver dans le bon projet.
    Projet Vertex AI sélectionné
  3. Sélectionnez le cluster que vous souhaitez examiner. La section Informations générales s'affiche.
  4. Dans la section Liens d'accès, cliquez sur le lien Shell interactif du nœud principal. Le shell interactif du nœud principal s'affiche.
  5. Suivez les instructions décrites dans la section Surveiller et déboguer l'entraînement avec un shell interactif.

Étape suivante