Auf dieser Seite wird beschrieben, wie Sie die mit Ihren Ray-Clustern verknüpften Tracking-Logs aufrufen und die Ray in Vertex AI-Messwerte überwachen. Außerdem wird eine Anleitung zum Debuggen von Ray-Clustern bereitgestellt.
Logs ansehen
Wenn Sie mit Ihrem Ray in Vertex AI Aufgaben ausführen, werden Tracking-Logs automatisch generiert und sowohl in Cloud Logging als auch im Open-Source-Ray-Dashboard gespeichert. In diesem Abschnitt wird beschrieben, wie Sie über die Google Cloud Console auf die generierten Logs zugreifen.
Lesen Sie zuerst die Ray in Vertex AI-Übersicht und richten Sie alle erforderlichen Tools ein.Ray OSS-Dashboard
Sie können die Open-Source-Ray-Logdateien über das Ray OSS-Dashboard aufrufen:
Rufen Sie in der Google Cloud Console die Seite „Ray in Vertex AI“ auf.
Wählen Sie in der Zeile für den von Ihnen erstellten Cluster das Menü
Weitere Aktionen aus.Wählen Sie den Link des Ray OSS-Dashboards aus. Das Dashboard wird in einem anderen Tab geöffnet.
Navigieren Sie oben rechts im Menü zur Ansicht Logs:
Klicken Sie auf die einzelnen Knoten, um die zugehörigen Logdateien aufzurufen.
Cloud Logging Console
-
Rufen Sie in der Google Cloud Console die Seite Log-Explorer auf.
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Logging ist.
Wählen Sie ein vorhandenes Google Cloud-Projekt, einen Ordner oder eine Organisation aus.
Um alle Ray-Logs anzuzeigen, geben Sie die folgende Abfrage in das Feld des Abfrageeditors ein und klicken Sie dann auf Abfrage ausführen:
resource.labels.task_name="ray-cluster-logs"
Wenn Sie die Logs auf einen bestimmten Ray-Cluster beschränken möchten, fügen Sie der Abfrage die folgende Zeile hinzu und klicken Sie dann auf Abfrage ausführen:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
Ersetzen Sie CLUSTER_NAME durch den Namen des Ray-Clusters. Rufen Sie in der Google Cloud Console Vertex AI > Ray on Vertex AI auf, wo eine Liste der Clusternamen in jeder Region angezeigt wird.
Wenn Sie die Logs weiter auf eine bestimmte Logdatei wie
raylet.out
beschränken möchten, klicken Sie auf Logfelder -> Logname.Sie können ähnliche Logeinträge gruppieren:
Klicken Sie in den Abfrageergebnissen auf einen Logeintrag, um das Log zu maximieren.
Klicken Sie in
jsonPayload
auf den Werttailed_path
. Ein Drop-down-Menü wird angezeigt.Klicken Sie auf Übereinstimmende Einträge anzeigen.
Messwerte überwachen
Sie können die Ray on Vertex AI-Messwerte mit Google Cloud Monitoring (GCM) auf verschiedene Arten aufrufen. Alternativ können Sie die Messwerte aus GCM auf Ihren eigenen Grafana-Server exportieren.
Messwerte in GCM überwachen
Es gibt zwei Möglichkeiten, die Ray on Vertex AI-Messwerte in GCM aufzurufen.
- Verwenden Sie die direkte Ansicht unter Metrics Explorer.
Importieren Sie das Grafana-Dashboard.
Metrics Explorer
So verwenden Sie die direkte Ansicht im Metrics Explorer:
- Gehen Sie zur Google Cloud Monitoring-Konsole.
- Wählen Sie Erkunden > Metrics Explorer aus.
- Wählen Sie unter Aktive Ressourcen die Option Prometheus-Ziel aus. Aktive Messwertkategorien werden angezeigt.
Wählen Sie Ray aus.
Eine Liste mit Messwerten wird angezeigt:
- Wählen Sie die Messwerte aus, die Sie überwachen möchten. Beispiel:
- Wählen Sie den Prozentsatz der CPU-Auslastung als überwachten Messwert aus:
- Filter auswählen. Wählen Sie beispielsweise Cluster aus:
Verwenden Sie die Cluster-ID, um nur die obigen Messwerte für einen bestimmten Cluster zu überwachen. So finden Sie Ihre Cluster-ID:Öffnen Sie in der Google Cloud Console die Seite Ray.
- Sie müssen sich in dem Projekt befinden, in dem Sie den Test erstellen möchten.
- Unter Name wird eine Liste der Cluster-IDs angezeigt.
- Wählen Sie die Methode Aggregation aus, um die Messwerte aufzurufen. Das heißt, Sie können sich nicht aggregierte Messwerte anzeigen lassen, in denen die CPU-Auslastung jedes Ray-Prozesses angezeigt wird:
- Wählen Sie den Prozentsatz der CPU-Auslastung als überwachten Messwert aus:
GCM-Dashboard
Folgen Sie zum Importieren eines Grafana-Dashboards für Ray on Vertex AI den Richtlinien im Cloud Monitoring-Dashboard unter Eigenes Grafana-Dashboard importieren.
Sie benötigen lediglich eine JSON-Datei des Grafana-Dashboards. OSS Ray unterstützt diese manuelle Einrichtung durch Bereitstellung der Standard-Grafana-JSON-Datei des Dashboards.
Messwerte von nutzereigenen Grafana überwachen
Wenn bereits ein Grafana-Server ausgeführt wird, gibt es auch eine Möglichkeit, alle Ray-Cluster on Vertex AI Prometheus-Messwerte in Ihren vorhandenen Grafana-Server zu exportieren. Folgen Sie dazu der GMP-Anleitung Abfrage mit Grafana. Dadurch können Sie Ihrem vorhandenen Grafana-Server eine neue Grafana-Datenquelle hinzufügen und die neue Grafana Prometheus-Datenquelle mit dem Datenquellen-Syncer mit Ray on Vertex AI-Messwerten synchronisieren.
Es ist wichtig, dass Sie die neu hinzugefügte Grafana-Datenquelle mit dem Datenquellen-Syncer konfigurieren und authentifizieren. Folgen Sie der Anleitung unter Grafana-Datenquelle konfigurieren und authentifizieren.
Nach der Synchronisierung können Sie jedes benötigte Dashboard basierend auf den Ray in Vertex AI-Messwerten erstellen und hinzufügen.
Standardmäßig sind die Messwertsammlungen von Ray on Vertex AI aktiviert. So deaktivieren Sie sie mit dem Vertex AI SDK für Python:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
Ray-Cluster debuggen
Verwenden Sie die interaktive Shell des Hauptknotens, um Fehler in Ray-Clustern zu beheben:
Google Cloud Console
So greifen Sie auf die interaktive Shell des Hauptknotens zu:
- Rufen Sie in der Google Cloud Console die Seite Ray in Vertex AI auf.
Zu Ray on Vertex AI - Sie müssen sich im richtigen Projekt befinden.
- Wählen Sie den Cluster aus, den Sie untersuchen möchten. Der Abschnitt Allgemeine Informationen wird angezeigt.
- Klicken Sie im Bereich Zugriffslinks auf den Link für Interaktive Shell des Hauptknotens. Die interaktive Shell des Hauptknotens wird angezeigt.
- Folgen Sie der Anleitung unter Training mit einer interaktiven Shell überwachen und Fehler beheben.