Zustand überwachen
Vertex AI Workbench-Instanzen bieten mehrere Methoden zur Überwachung des Zustands Ihrer Notebooks. Auf dieser Seite wird die Verwendung der einzelnen Methoden beschrieben.
Methoden zur Überwachung des Systemstatus
Sie können den Zustand Ihrer Vertex AI Workbench-Instanzen auf verschiedene Arten überwachen. Auf dieser Seite wird die Verwendung der folgenden Methoden beschrieben:
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Gastattribute verwenden, um den Systemzustand zu melden
Sie können Gastattribute verwenden, um den Systemzustand der folgenden Hauptdienste zu melden:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Gastattribute sind ein spezieller Typ benutzerdefinierter Metadaten, in den Anwendungen schreiben können, während sie auf der Vertex AI Workbench-Instanz ausgeführt werden. Weitere Informationen zu Gastattributen finden Sie unter VM-Metadaten.
Wie Instanzen Gastattribute verwenden, um den Systemzustand zu melden
Der notebooks-collection-agent
-Dienst führt einen Python-Prozess im Hintergrund aus, der den Status der Hauptdienste von Vertex AI Workbench prüft und die Gastattribute als 1
aktualisiert, wenn keine Probleme erkannt werden, oder als -1
, wenn ein Fehler erkannt wird.
Wenn Sie den Dienst notebooks-collection-agent
verwenden möchten, um Berichte zum Zustand Ihrer Vertex AI Workbench-Instanz zu erstellen, müssen Sie die folgenden Gastattribute bei der Erstellung einer Vertex AI Workbench-Instanz aktivieren:
enable-guest-attributes=TRUE
: Aktiviert Gastattribute auf Ihrer Vertex AI Workbench-Instanz. Alle neuen Instanzen aktivieren dieses Attribut standardmäßig.report-event-health=TRUE
: Erfasst die Ergebnisse der Systemdiagnose in Ihren Gastattributen.
Der notebooks-collection-agent
-Dienst benötigt keine speziellen Berechtigungen, um in die Gastattribute der Instanz zu schreiben.
Vertex AI Workbench-Instanz mit aktivierten Gastattributen für den Systemzustand erstellen
Wenn Sie Gastattribute für den Systemzustand verwenden möchten, um Berichte zum Zustand Ihrer Vertex AI Workbench-Instanz zu erstellen, müssen Sie beim Erstellen einer Vertex AI Workbench-Instanz das Kästchen Systemzustandsbericht aktivieren anklicken.
Sie können den Systemzustandsbericht mithilfe der Google Cloud Console aktivieren.
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf
NEU ERSTELLEN.Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.
Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Systemzustand melden aus.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
Systemzustand durch Gastattribute überwachen
Für Vertex AI Workbench-Instanzen, bei denen die entsprechenden Gastattribute aktiviert sind, können Sie die Werte der Gastattribute für den Systemzustand entweder über die Google Cloud Console, die Google Cloud CLI mit Compute Engine-Befehlen oder die Google Cloud CLI mit Vertex AI Workbench-Befehlen abrufen.
Console
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf den Instanznamen, mit dem Sie den Systemzustand aufrufen möchten.
Klicken Sie auf der Seite Instanzdetails auf den Tab Status. Prüfen Sie den Status Ihrer Instanz und der zugehörigen Hauptdienste.
gcloud mit Compute Engine
gcloud compute instances get-guest-attributes INSTANCE_NAME \
--zone ZONE
Dabei gilt:
INSTANCE_NAME
: durch den Namen der InstanzZONE
: Zone, in der sich Ihre Instanz befindet.
Wenn Ihre Hauptdienste fehlerfrei sind, sehen die Ergebnisse folgendermaßen aus.
Der Wert 1
bedeutet, dass kein Ausfall erkannt wurde.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status 1
notebooks docker_status 1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health 1
notebooks updated 2023-06-20 17:00:00.12345
Wenn einer der vier Hauptdienste fehlschlägt, meldet der Systemzustand den Wert -1
, um einen Systemausfall anzuzeigen. In den meisten Fällen bedeutet ein Systemausfall, dass JupyterLab nicht zugänglich ist.
Ein Beispiel für ein Ausfallergebnis könnte so aussehen:
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status -1
notebooks docker_status -1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health -1
notebooks updated 2023-06-20 17:00:00.12345
Benutzerdefinierte Messwerte an Monitoring melden
Mit Vertex AI Workbench-Instanzen können Sie den Systemstatus und JupyterLab-Messwerte erfassen und an Cloud Monitoring melden. Diese benutzerdefinierten Messwerte unterscheiden sich von den Standardmesswerten, die gemeldet werden, wenn Sie Monitoring auf Ihrer Vertex AI Workbench-Instanz installieren.
Zu den an Monitoring gemeldeten benutzerdefinierten Messwerten gehören:
Der Systemzustand dieser Vertex AI Workbench-Hauptdienste:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Die folgenden JupyterLab-Messwerte:
- Anzahl der Kernel
- Anzahl der Terminals
- Anzahl Verbindungen
- Anzahl der Sitzungen
- Maximaler Arbeitsspeicher
- Großer Speicher
- Aktueller Arbeitsspeicher
Wie Instanzen benutzerdefinierte Messwerte an Monitoring melden
Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie die Metadateneinstellung report-notebook-metrics
beim Erstellen einer Vertex AI Workbench-Instanz aktivieren.
Sie müssen außerdem dafür sorgen, dass das Dienstkonto der Vertex AI Workbench-Instanz die Berechtigung „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter
) hat. Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Vertex AI Workbench-Instanz erstellen, die benutzerdefinierte Messwerte an Monitoring meldet
Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie das Kästchen Benutzerdefinierte Messwerte an Cloud Monitoring melden anklicken, wenn Sie eine Vertex AI Workbench-Instanz erstellen.
Sie können das Melden benutzerdefinierter Messwerte an Cloud Monitoring mit der Google Cloud Console aktivieren.
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf
NEU ERSTELLEN.Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.
Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Benutzerdefinierte Messwerte an Cloud Monitoring melden aus.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
Dem Dienstkonto die Berechtigungen von „Monitoring-Messwert-Autor“ erteilen
Nachdem Sie die neue Vertex AI Workbench-Instanz erstellt haben, erteilen Sie dem Dienstkonto für die Vertex AI Workbench-Instanz die Berechtigungen von „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter
).
Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Benutzerdefinierte Messwerte mit Monitoring beobachten
Für Vertex AI Workbench-Instanzen, für die das Melden benutzerdefinierter Messwerte aktiviert ist, können Sie Ihre benutzerdefinierten Messwerte mithilfe der Google Cloud Console überwachen.
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf den Namen der Instanz, deren benutzerdefinierte Messwerte Sie aufrufen möchten.
Klicken Sie auf der Seite Instanzdetails auf den Tab Monitoring. Sehen Sie sich die benutzerdefinierten Messwerte für Ihre Instanz an.
Monitoring auf einer Instanz installieren
Mit dieser Option wird Monitoring automatisch installiert. Die Installation erfordert 256 MB Speicherplatz. Eine Internetverbindung ist erforderlich, damit die Messwerte an Monitoring gemeldet werden können.
Wie Instanzen System- und Anwendungsmesswerte melden
Wenn Sie System- und Anwendungsmesswerte melden möchten, indem Sie Cloud Monitoring auf Ihrer Vertex AI Workbench-Instanz installieren, müssen Sie das Kästchen Cloud Monitoring-Agent installieren anklicken, wenn Sie eine Vertex AI Workbench-Instanz erstellen.
Diese Messwerte unterscheiden sich von den benutzerdefinierten Messwerten, die gemeldet werden, wenn Sie die Metadateneinstellung report-notebook-metrics
aktivieren.
Vertex AI Workbench-Instanz erstellen, die System- und Anwendungsmesswerte an Monitoring meldet
Zum Installieren von Monitoring auf Ihrer Vertex AI Workbench-Instanz können Sie die Google Cloud Console verwenden.
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf
NEU ERSTELLEN.Klicken Sie im Dialogfeld Neue Instanz auf Erweiterte Optionen.
Geben Sie im Dialogfeld Instanz erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Notebookname: Geben Sie einen Namen für Ihre neue Instanz ein.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt.
Wählen Sie im Abschnitt Systemzustand unter Berichterstellung die Option Cloud Monitoring installieren aus.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
System- und Anwendungsmesswerte über Monitoring überwachen
Für Vertex AI Workbench-Instanzen, auf denen Monitoring installiert ist, können Sie Ihre System- und Anwendungsmesswerte mithilfe der Google Cloud Console überwachen:
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf den Instanznamen, für den Sie die System- und Anwendungsmesswerte aufrufen möchten.
Klicken Sie auf der Seite Instanzdetails auf den Tab Monitoring. Sehen Sie sich die System- und Anwendungsmesswerte für Ihre Instanz an. Informationen zum Interpretieren dieser Messwerte finden Sie unter Ressourcenmesswerte überprüfen.
Systemzustand mit dem Diagnosetool überwachen
Vertex AI Workbench-Instanzen enthalten ein integriertes Diagnosetool, mit dem Sie den Systemzustand Ihrer Instanzen überwachen können.
Vom Diagnosetool ausgeführte Aufgaben
Das Diagnosetool führt die folgenden Aufgaben aus:
Verifiziert den Status der folgenden Vertex AI Workbench-Hauptdienste:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Prüft, ob der Speicherplatz für Boot- und Datenlaufwerke über einen Grenzwert von 85 % hinaus verwendet wird.
Installiert
lsof
(Internetverbindung erforderlich).Erfasst die folgenden Instanzlogs:
- Netzwerkinformationen (
ifconfig
,netstat
) - Logs im Ordner
/var/log/
- Docker-Statusinformationen
lsof
-Daten (geöffnete Dateien)- Docker-Dienststatus
- Status des Proxy-Reverse-Agents
- Jupyter-Dienststatus
- Jupyter API-Status
- Konfigurationsdatei für den Proxy-Agent
- Python-Prozesse
- Netzwerkinformationen (
Führt die folgenden Befehle aus und erfasst die Ergebnisse:
- pip freeze
- conda list
- gcloud compute instances describe
INSTANCE_NAME
- gcloud config list
Diagnosetool ausführen
Führen Sie die folgenden Schritte aus, um das Diagnosetool auszuführen:
Stellen Sie eine SSH-Verbindung zur Vertex AI Workbench-Instanz her.
Führen Sie im SSH-Terminal die folgenden Befehle aus:
sudo -i cd /opt/deeplearning/bin/ ./diagnostic_tool.sh
Das Diagnosetool erfasst die Logs, komprimiert sie in einer
.tar.gz
-Datei und speichert die Datei im Ordner/tmp/
.Extrahieren Sie die Datei und bewerten Sie den Inhalt. Die Inhalte umfassen:
log
-Ordner: Logs aus dem Ordnervar/log/
report.log
: Ausgabe für alle erfassten Befehleproxy-agent-config.json
: Informationen zur Proxykonfiguration- Docker-Log: Eine
-json.log
-Datei, die Docker-Containerlogs enthält
Sie können die folgenden Optionen mit dem Diagnosetool verwenden.
Option | Beschreibung |
---|---|
-r | Eine Reparaturoption, die versucht, den Status fehlgeschlagener Vertex AI Workbench-Hauptdienste wiederherzustellen |
-s | Ausführung ohne Bestätigung |
-b |
Lädt die Datei .tar.gz in einen Cloud Storage-Bucket hoch
|
-v | Debugging-Option für die Fehlerbehebung im Fall von Ausfällen |
-c | Erfasst 30 Sekunden Paket-Traffic in Ihre Vertex AI Workbench-Instanz und filtert SSH |
-d | Ein Zielordner, in dem die Logs gespeichert werden sollen |
-h | Hilfe |