Zustand überwachen

Vertex AI Workbench-Instanzen bieten mehrere Methoden zur Überwachung des Zustands Ihrer Notebooks. Auf dieser Seite wird die Verwendung der einzelnen Methoden beschrieben.

Methoden zur Überwachung des Systemstatus

Sie können den Zustand Ihrer Vertex AI Workbench-Instanzen auf verschiedene Arten überwachen. Auf dieser Seite wird die Verwendung der folgenden Methoden beschrieben:

Hinweis

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks API.

    Enable the API

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the Notebooks API.

    Enable the API

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init

Gastattribute verwenden, um den Systemzustand zu melden

Sie können Gastattribute verwenden, um den Systemzustand der folgenden Hauptdienste zu melden:

  • Docker-Dienst
  • Docker-Reverse-Proxy-Agent
  • Jupyter-Dienst
  • Jupyter API

Gastattribute sind ein spezieller Typ benutzerdefinierter Metadaten, in den Anwendungen schreiben können, während sie auf der Vertex AI Workbench-Instanz ausgeführt werden. Weitere Informationen zu Gastattributen finden Sie unter VM-Metadaten.

Wie Instanzen Gastattribute verwenden, um den Systemzustand zu melden

Der notebooks-collection-agent-Dienst führt einen Python-Prozess im Hintergrund aus, der den Status der Hauptdienste von Vertex AI Workbench prüft und die Gastattribute als 1 aktualisiert, wenn keine Probleme erkannt werden, oder als -1, wenn ein Fehler erkannt wird.

Wenn Sie den Dienst notebooks-collection-agent verwenden möchten, um Berichte zum Zustand Ihrer Vertex AI Workbench-Instanz zu erstellen, müssen Sie die folgenden Gastattribute bei der Erstellung einer Vertex AI Workbench-Instanz aktivieren:

  • enable-guest-attributes=TRUE: Aktiviert Gastattribute auf Ihrer Vertex AI Workbench-Instanz. Alle neuen Instanzen aktivieren dieses Attribut standardmäßig.
  • report-event-health=TRUE: Erfasst die Ergebnisse der Systemdiagnose in Ihren Gastattributen.

Der notebooks-collection-agent-Dienst benötigt keine speziellen Berechtigungen, um in die Gastattribute der Instanz zu schreiben.

Vertex AI Workbench-Instanz mit aktivierten Gastattributen für den Systemzustand erstellen

Wenn Sie Gastattribute für den Systemzustand verwenden möchten, um Berichte zum Zustand Ihrer Vertex AI Workbench-Instanz zu erstellen, müssen Sie beim Erstellen einer Vertex AI Workbench-Instanz das Kästchen Systemzustandsbericht aktivieren anklicken.

Sie können den Systemzustandsbericht mithilfe der Google Cloud Console aktivieren.

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf  NEU ERSTELLEN.

  3. Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.

  4. Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:

    • Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
    • Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
  5. Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Systemzustand melden aus.

  6. Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.

Systemzustand durch Gastattribute überwachen

Für Vertex AI Workbench-Instanzen, bei denen die entsprechenden Gastattribute aktiviert sind, können Sie die Werte der Gastattribute für den Systemzustand entweder über die Google Cloud Console, die Google Cloud CLI mit Compute Engine-Befehlen oder die Google Cloud CLI mit Vertex AI Workbench-Befehlen abrufen.

Console

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf den Instanznamen, mit dem Sie den Systemzustand aufrufen möchten.

  3. Klicken Sie auf der Seite Instanzdetails auf den Tab Status. Prüfen Sie den Status Ihrer Instanz und der zugehörigen Hauptdienste.

gcloud mit Compute Engine

gcloud compute instances get-guest-attributes INSTANCE_NAME \
    --zone ZONE

Dabei gilt:

  • INSTANCE_NAME: durch den Namen der Instanz
  • ZONE: Zone, in der sich Ihre Instanz befindet.

Wenn Ihre Hauptdienste fehlerfrei sind, sehen die Ergebnisse folgendermaßen aus. Der Wert 1 bedeutet, dass kein Ausfall erkannt wurde.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   1
 notebooks   docker_status               1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               1
 notebooks   updated                     2023-06-20 17:00:00.12345

Wenn einer der vier Hauptdienste fehlschlägt, meldet der Systemzustand den Wert -1, um einen Systemausfall anzuzeigen. In den meisten Fällen bedeutet ein Systemausfall, dass JupyterLab nicht zugänglich ist.

Ein Beispiel für ein Ausfallergebnis könnte so aussehen:

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   -1
 notebooks   docker_status               -1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               -1
 notebooks   updated                     2023-06-20 17:00:00.12345

Benutzerdefinierte Messwerte an Monitoring melden

Mit Vertex AI Workbench-Instanzen können Sie den Systemstatus und JupyterLab-Messwerte erfassen und an Cloud Monitoring melden. Diese benutzerdefinierten Messwerte unterscheiden sich von den Standardmesswerten, die gemeldet werden, wenn Sie Monitoring auf Ihrer Vertex AI Workbench-Instanz installieren.

Zu den an Monitoring gemeldeten benutzerdefinierten Messwerten gehören:

  • Der Systemzustand dieser Vertex AI Workbench-Hauptdienste:

    • Docker-Dienst
    • Docker-Reverse-Proxy-Agent
    • Jupyter-Dienst
    • Jupyter API
  • Die folgenden JupyterLab-Messwerte:

    • Anzahl der Kernel
    • Anzahl der Terminals
    • Anzahl Verbindungen
    • Anzahl der Sitzungen
    • Maximaler Arbeitsspeicher
    • Großer Speicher
    • Aktueller Arbeitsspeicher

Wie Instanzen benutzerdefinierte Messwerte an Monitoring melden

Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie die Metadateneinstellung report-notebook-metrics beim Erstellen einer Vertex AI Workbench-Instanz aktivieren.

Sie müssen außerdem dafür sorgen, dass das Dienstkonto der Vertex AI Workbench-Instanz die Berechtigung „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter) hat. Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Vertex AI Workbench-Instanz erstellen, die benutzerdefinierte Messwerte an Monitoring meldet

Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie das Kästchen Benutzerdefinierte Messwerte an Cloud Monitoring melden anklicken, wenn Sie eine Vertex AI Workbench-Instanz erstellen.

Sie können das Melden benutzerdefinierter Messwerte an Cloud Monitoring mit der Google Cloud Console aktivieren.

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf  NEU ERSTELLEN.

  3. Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.

  4. Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:

    • Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
    • Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
  5. Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Benutzerdefinierte Messwerte an Cloud Monitoring melden aus.

  6. Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.

Dem Dienstkonto die Berechtigungen von „Monitoring-Messwert-Autor“ erteilen

Nachdem Sie die neue Vertex AI Workbench-Instanz erstellt haben, erteilen Sie dem Dienstkonto für die Vertex AI Workbench-Instanz die Berechtigungen von „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter). Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Benutzerdefinierte Messwerte mit Monitoring beobachten

Für Vertex AI Workbench-Instanzen, für die das Melden benutzerdefinierter Messwerte aktiviert ist, können Sie Ihre benutzerdefinierten Messwerte mithilfe der Google Cloud Console überwachen.

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf den Namen der Instanz, deren benutzerdefinierte Messwerte Sie aufrufen möchten.

  3. Klicken Sie auf der Seite Instanzdetails auf den Tab Monitoring. Sehen Sie sich die benutzerdefinierten Messwerte für Ihre Instanz an.

Monitoring auf einer Instanz installieren

Mit dieser Option wird Monitoring automatisch installiert. Die Installation erfordert 256 MB Speicherplatz. Eine Internetverbindung ist erforderlich, damit die Messwerte an Monitoring gemeldet werden können.

Wie Instanzen System- und Anwendungsmesswerte melden

Wenn Sie System- und Anwendungsmesswerte melden möchten, indem Sie Cloud Monitoring auf Ihrer Vertex AI Workbench-Instanz installieren, müssen Sie das Kästchen Cloud Monitoring-Agent installieren anklicken, wenn Sie eine Vertex AI Workbench-Instanz erstellen. Diese Messwerte unterscheiden sich von den benutzerdefinierten Messwerten, die gemeldet werden, wenn Sie die Metadateneinstellung report-notebook-metrics aktivieren.

Vertex AI Workbench-Instanz erstellen, die System- und Anwendungsmesswerte an Monitoring meldet

Zum Installieren von Monitoring auf Ihrer Vertex AI Workbench-Instanz können Sie die Google Cloud Console verwenden.

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf  NEU ERSTELLEN.

  3. Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.

  4. Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:

    • Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
    • Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
  5. Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Cloud Monitoring installieren aus.

  6. Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.

System- und Anwendungsmesswerte über Monitoring überwachen

Für Vertex AI Workbench-Instanzen, auf denen Monitoring installiert ist, können Sie Ihre System- und Anwendungsmesswerte mithilfe der Google Cloud Console überwachen:

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf den Instanznamen, für den Sie die System- und Anwendungsmesswerte aufrufen möchten.

  3. Klicken Sie auf der Seite Instanzdetails auf den Tab Monitoring. Sehen Sie sich die System- und Anwendungsmesswerte für Ihre Instanz an. Informationen zum Interpretieren dieser Messwerte finden Sie unter Ressourcenmesswerte überprüfen.

Systemzustand mit dem Diagnosetool überwachen

Vertex AI Workbench-Instanzen enthalten ein integriertes Diagnosetool, mit dem Sie den Systemzustand Ihrer Instanzen überwachen können.

Vom Diagnosetool ausgeführte Aufgaben

Das Diagnosetool führt die folgenden Aufgaben aus:

  • Verifiziert den Status der folgenden Vertex AI Workbench-Hauptdienste:

    • Docker-Dienst
    • Docker-Reverse-Proxy-Agent
    • Jupyter-Dienst
    • Jupyter API
  • Prüft, ob der Speicherplatz für Boot- und Datenlaufwerke über einen Grenzwert von 85 % hinaus verwendet wird.

  • Installiert lsof (Internetverbindung erforderlich).

  • Erfasst die folgenden Instanzlogs:

    • Netzwerkinformationen (ifconfig, netstat)
    • Logs im Ordner /var/log/
    • Docker-Statusinformationen
    • lsof-Daten (geöffnete Dateien)
    • Docker-Dienststatus
    • Status des Proxy-Reverse-Agents
    • Jupyter-Dienststatus
    • Jupyter API-Status
    • Konfigurationsdatei für den Proxy-Agent
    • Python-Prozesse
  • Führt die folgenden Befehle aus und erfasst die Ergebnisse:

    • pip freeze
    • conda list
    • gcloud compute instances describe INSTANCE_NAME
    • gcloud config list

Diagnosetool ausführen

Führen Sie die folgenden Schritte aus, um das Diagnosetool auszuführen:

  1. Stellen Sie eine SSH-Verbindung zur Vertex AI Workbench-Instanz her.

  2. Führen Sie im SSH-Terminal die folgenden Befehle aus:

    sudo -i
    cd /opt/deeplearning/bin/
    ./diagnostic_tool.sh
    

    Das Diagnosetool erfasst die Logs, komprimiert sie in einer .tar.gz-Datei und speichert die Datei im Ordner /tmp/.

  3. Extrahieren Sie die Datei und bewerten Sie den Inhalt. Die Inhalte umfassen:

    • log-Ordner: Logs aus dem Ordner var/log/
    • report.log: Ausgabe für alle erfassten Befehle
    • proxy-agent-config.json: Informationen zur Proxykonfiguration
    • Docker-Log: Eine -json.log-Datei, die Docker-Containerlogs enthält

Sie können die folgenden Optionen mit dem Diagnosetool verwenden.

Option Beschreibung
-r Eine Reparaturoption, die versucht, den Status fehlgeschlagener Vertex AI Workbench-Hauptdienste wiederherzustellen
-s Ausführung ohne Bestätigung
-b Lädt die Datei .tar.gz in einen Cloud Storage-Bucket hoch
-v Debugging-Option für die Fehlerbehebung im Fall von Ausfällen
-c Erfasst 30 Sekunden Paket-Traffic in Ihre Vertex AI Workbench-Instanz und filtert SSH
-d Ein Zielordner, in dem die Logs gespeichert werden sollen
-h Hilfe

Nächste Schritte