Ray-Cluster in Vertex AI überwachen

Auf dieser Seite wird beschrieben, wie Sie die mit Ihren Ray-Clustern verknüpften Tracking-Logs aufrufen und die Ray in Vertex AI-Messwerte überwachen. Außerdem wird eine Anleitung zum Debuggen von Ray-Clustern bereitgestellt.

Logs ansehen

Wenn Sie mit Ihrem Ray in Vertex AI Aufgaben ausführen, werden Tracking-Logs automatisch generiert und sowohl in Cloud Logging als auch im Open-Source-Ray-Dashboard gespeichert. In diesem Abschnitt wird beschrieben, wie Sie über die Google Cloud Console auf die generierten Logs zugreifen.

Lesen Sie zuerst die Ray in Vertex AI-Übersicht und richten Sie alle erforderlichen Tools ein.

Ray OSS-Dashboard

Sie können die Open-Source-Ray-Logdateien über das Ray OSS-Dashboard aufrufen:

  1. Rufen Sie in der Google Cloud Console die Seite „Ray in Vertex AI“ auf.

    Zur Seite "Ray in Vertex AI"

  2. Wählen Sie in der Zeile für den von Ihnen erstellten Cluster das Menü Weitere Aktionen aus.

  3. Wählen Sie den Link des Ray OSS-Dashboards aus. Das Dashboard wird in einem anderen Tab geöffnet.

  4. Navigieren Sie oben rechts im Menü zur Ansicht Logs:

    Ray-Dashboard-Logs auswählen

  5. Klicken Sie auf die einzelnen Knoten, um die zugehörigen Logdateien aufzurufen.

Cloud Logging Console

  1. Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.

    Zum Log-Explorer

    Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Logging ist.

  2. Wählen Sie ein vorhandenes Google Cloud-Projekt, einen Ordner oder eine Organisation aus.

  3. Um alle Ray-Logs anzuzeigen, geben Sie die folgende Abfrage in das Feld des Abfrageeditors ein und klicken Sie dann auf Abfrage ausführen:

    resource.labels.task_name="ray-cluster-logs"
  4. Wenn Sie die Logs auf einen bestimmten Ray-Cluster beschränken möchten, fügen Sie der Abfrage die folgende Zeile hinzu und klicken Sie dann auf Abfrage ausführen:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Ersetzen Sie CLUSTER_NAME durch den Namen des Ray-Clusters. Rufen Sie in der Google Cloud Console Vertex AI > Ray on Vertex AI auf, wo eine Liste der Clusternamen in jeder Region angezeigt wird.

  5. Wenn Sie die Logs weiter auf eine bestimmte Logdatei wie raylet.out beschränken möchten, klicken Sie auf Logfelder -> Logname.

  6. Sie können ähnliche Logeinträge gruppieren:

    1. Klicken Sie in den Abfrageergebnissen auf einen Logeintrag, um das Log zu maximieren.

    2. Klicken Sie in jsonPayload auf den Wert tailed_path. Ein Drop-down-Menü wird angezeigt.

    3. Klicken Sie auf Übereinstimmende Einträge anzeigen.

Messwerte überwachen

Sie können die Ray on Vertex AI-Messwerte mit Google Cloud Monitoring (GCM) auf verschiedene Arten aufrufen. Alternativ können Sie die Messwerte aus GCM auf Ihren eigenen Grafana-Server exportieren.

Messwerte in GCM überwachen

Es gibt zwei Möglichkeiten, die Ray on Vertex AI-Messwerte in GCM aufzurufen.

  • Verwenden Sie die direkte Ansicht unter Metrics Explorer.
  • Importieren Sie das Grafana-Dashboard.

Metrics Explorer

So verwenden Sie die direkte Ansicht im Metrics Explorer:

  1. Gehen Sie zur Google Cloud Monitoring-Konsole.
  2. Wählen Sie Erkunden > Metrics Explorer aus.
  3. Wählen Sie unter Aktive Ressourcen die Option Prometheus-Ziel aus. Aktive Messwertkategorien werden angezeigt.
  4. Wählen Sie Ray aus.

    Eine Liste mit Messwerten wird angezeigt:

    Messwert auswählen
  5. Wählen Sie die Messwerte aus, die Sie überwachen möchten. Beispiel:
    1. Wählen Sie den Prozentsatz der CPU-Auslastung als überwachten Messwert aus:
      Auslastungziel
    2. Filter auswählen. Wählen Sie beispielsweise Cluster aus:
      Erforderlichen Filter hinzufügen Verwenden Sie die Cluster-ID, um nur die obigen Messwerte für einen bestimmten Cluster zu überwachen. So finden Sie Ihre Cluster-ID:
      1. Öffnen Sie in der Google Cloud Console die Seite Ray.

        Zu Ray

      2. Sie müssen sich in dem Projekt befinden, in dem Sie den Test erstellen möchten.
        Vertex AI-Projekt auswählen
      3. Unter Name wird eine Liste der Cluster-IDs angezeigt.
      Messwert auswählen
    3. Wählen Sie die Methode Aggregation aus, um die Messwerte aufzurufen. Das heißt, Sie können sich nicht aggregierte Messwerte anzeigen lassen, in denen die CPU-Auslastung jedes Ray-Prozesses angezeigt wird:
      nicht aggregierte Messwerte

GCM-Dashboard

Folgen Sie zum Importieren eines Grafana-Dashboards für Ray on Vertex AI den Richtlinien im Cloud Monitoring-Dashboard unter Eigenes Grafana-Dashboard importieren.

Monitoring-Dashboard

Sie benötigen lediglich eine JSON-Datei des Grafana-Dashboards. OSS Ray unterstützt diese manuelle Einrichtung durch Bereitstellung der Standard-Grafana-JSON-Datei des Dashboards.

Messwerte von nutzereigenen Grafana überwachen

Wenn bereits ein Grafana-Server ausgeführt wird, gibt es auch eine Möglichkeit, alle Ray-Cluster on Vertex AI Prometheus-Messwerte in Ihren vorhandenen Grafana-Server zu exportieren. Folgen Sie dazu der GMP-Anleitung Abfrage mit Grafana. Dadurch können Sie Ihrem vorhandenen Grafana-Server eine neue Grafana-Datenquelle hinzufügen und die neue Grafana Prometheus-Datenquelle mit dem Datenquellen-Syncer mit Ray on Vertex AI-Messwerten synchronisieren.

Es ist wichtig, dass Sie die neu hinzugefügte Grafana-Datenquelle mit dem Datenquellen-Syncer konfigurieren und authentifizieren. Folgen Sie der Anleitung unter Grafana-Datenquelle konfigurieren und authentifizieren.

Nach der Synchronisierung können Sie jedes benötigte Dashboard basierend auf den Ray in Vertex AI-Messwerten erstellen und hinzufügen.

Standardmäßig sind die Messwertsammlungen von Ray on Vertex AI aktiviert. So deaktivieren Sie sie mit dem Vertex AI SDK für Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Ray-Cluster debuggen

Verwenden Sie die interaktive Shell des Hauptknotens, um Fehler in Ray-Clustern zu beheben:

Google Cloud Console

So greifen Sie auf die interaktive Shell des Hauptknotens zu:

  1. Rufen Sie in der Google Cloud Console die Seite Ray in Vertex AI auf.
    Zu Ray on Vertex AI
  2. Sie müssen sich im richtigen Projekt befinden.
    Vertex AI-Projekt auswählen
  3. Wählen Sie den Cluster aus, den Sie untersuchen möchten. Der Abschnitt Allgemeine Informationen wird angezeigt.
  4. Klicken Sie im Bereich Zugriffslinks auf den Link für Interaktive Shell des Hauptknotens. Die interaktive Shell des Hauptknotens wird angezeigt.
  5. Folgen Sie der Anleitung unter Training mit einer interaktiven Shell überwachen und Fehler beheben.

Nächste Schritte