Zustand überwachen
Nutzerverwaltete Notebookinstanzen bieten mehrere Methoden zum Monitoring des Zustands Ihrer Notebooks. Auf dieser Seite wird die Verwendung der einzelnen Methoden beschrieben.
Methoden zur Überwachung des Systemstatus
Sie können den Zustand Ihrer nutzerverwalteten Notebookinstanzen auf verschiedene Arten überwachen. Auf dieser Seite wird die Verwendung der folgenden Methoden beschrieben:
Die gcloud CLI einrichten
Um manche der Schritte auf dieser Seite auszuführen, müssen Sie die Google Cloud-CLI verwenden.Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
Gastattribute verwenden, um den Systemzustand zu melden
Sie können Gastattribute verwenden, um den Systemzustand der folgenden Hauptdienste zu melden:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Gastattribute sind ein spezieller Typ benutzerdefinierter Metadaten, in den Anwendungen schreiben können, während sie auf der nutzerverwalteten Notebookinstanz ausgeführt werden. Weitere Informationen zu Gastattributen finden Sie unter VM-Metadaten.
Wie Instanzen Gastattribute verwenden, um den Systemzustand zu melden
Der notebooks-collection-agent
-Dienst führt einen Python-Prozess im Hintergrund aus, der den Status der Hauptdienste der nutzerverwalteten Notebookinstanz prüft und die Gastattribute als 1
aktualisiert, wenn keine Probleme erkannt werden, oder als -1
, wenn ein Fehler erkannt wird.
Wenn Sie den Dienst notebooks-collection-agent
verwenden möchten, um Berichte zum Zustand Ihrer nutzerverwalteten Notebookinstanz zu erstellen, müssen Sie die folgenden Gastattribute bei der Erstellung einer nutzerverwalteten Notebookinstanz aktivieren:
enable-guest-attributes=TRUE
: Aktiviert Gastattribute auf Ihrer nutzerverwalteten Notebookinstanz. Alle neuen Instanzen aktivieren dieses Attribut standardmäßig.report-system-health=TRUE
: Erfasst die Ergebnisse der Systemdiagnose in Ihren Gastattributen.
Der notebooks-collection-agent
-Dienst benötigt keine speziellen Berechtigungen, um in die Gastattribute der Instanz zu schreiben.
Nutzerverwaltete Notebookinstanz mit aktivierten Systemstatus-Gastattributen erstellen
Wenn Sie Gastattribute für den Systemstatus verwenden möchten, um den Status der nutzerverwalteten Notebookinstanz zu melden, müssen Sie beim Erstellen einer nutzerverwalteten Notebookinstanz das Kästchen Systemzustandsbericht aktivieren anklicken.
Sie können den Systemzustandsbericht entweder mit der Google Cloud Console oder mit der Google Cloud CLI aktivieren.
Hinweise
Bevor Sie eine nutzerverwaltete Notebookinstanz erstellen können, müssen Sie ein Google Cloud-Projekt haben und die Notebooks API für dieses Projekt aktivieren.- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Wenn Sie GPUs mit Ihrer nutzerverwalteten Notebooks-Instanz verwenden möchten, prüfen Sie auf der Seite „Kontingente“ in der Google Cloud Console, ob in Ihrem Projekt genügend GPUs verfügbar sind. Wenn auf der Seite "Kontingente" keine GPUs aufgeführt sind oder Sie zusätzliche GPU-Kontingente benötigen, können Sie eine Erhöhung des Kontingents beantragen. Weitere Informationen finden Sie auf der Compute Engine-Seite Ressourcenkontingente unter Ein höheres Kontingent anfordern.
Erforderliche Rollen
Wenn Sie das Projekt erstellt haben, haben Sie die IAM-Rolle „Inhaber“ (roles/owner
) für das Projekt, die alle erforderlichen Berechtigungen enthält. Überspringen Sie diesen Abschnitt und beginnen Sie mit der Erstellung Ihrer nutzerverwalteten Notebookinstanz. Wenn Sie das Projekt nicht selbst erstellt haben, fahren Sie mit diesem Abschnitt fort.
Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen einer nutzerverwalteten Notebookinstanz von Vertex AI Workbench hat:
- Notebooks-Administrator (
roles/notebooks.admin
) - Dienstkontonutzer (
roles/iam.serviceAccountUser
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Ihr Administrator kann Ihrem Nutzerkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.
Die Instanz erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf. Rufen Sie alternativ notebook.new (https://notebook.new) auf und überspringen Sie den nächsten Schritt.
Klicken Sie auf
Neues Notebook und wählen Sie dann Anpassen aus.Geben Sie auf der Seite Nutzerverwaltetes Notebook erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Instanzname: Ein Name für die neue Instanz.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt. Prüfen Sie die verfügbaren Standorte für vom Nutzer verwaltete Notebooks.
Wählen Sie den Abschnitt Systemzustand aus.
Klicken Sie im Abschnitt Systemzustand und Berichterstellung das Kästchen Systemzustandsbericht aktivieren an.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
gcloud
Geben Sie in Cloud Shell oder in einer Umgebung, in der die Google Cloud CLI installiert ist, den folgenden Befehl der Google Cloud CLI ein:
gcloud notebooks instances create INSTANCE_NAME \ --vm-image-project=deeplearning-platform-release \ --vm-image-family=IMAGE_FAMILY \ --machine-type=MACHINE_TYPE \ --location=ZONE \ --metadata=enable-guest-attributes=TRUE,report-system-health=TRUE
Dabei gilt:
INSTANCE_NAME
: Name der neuen InstanzIMAGE_FAMILY
: der Image-Familienname, den Sie zum Erstellen Ihrer Instanz verwenden möchtenMACHINE_TYPE
: der Maschinentyp der VM Ihrer Instanz, z. B.n1-standard-4
ZONE
: die Zone, in der sich die neue Instanz befinden soll, z. B.us-west1-a
Greifen Sie über die Google Cloud Console auf Ihre Instanz zu.
Systemzustand durch Gastattribute überwachen
Für nutzerverwaltete Notebookinstanzen, bei denen die entsprechenden Gastattribute aktiviert sind, können Sie die Werte der Gastattribute für den Systemzustand entweder über die Google Cloud Console, die Google Cloud CLI mit Compute Engine-Befehlen oder die Google Cloud CLI mit Vertex AI Workbench-Befehlen abrufen.
Console
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf.
Klicken Sie auf den Instanznamen, mit dem Sie den Systemzustand aufrufen möchten.
Klicken Sie auf der Seite Notebookdetails auf den Tab Status. Prüfen Sie den Status Ihrer Instanz und der zugehörigen Hauptdienste.
gcloud mit Compute Engine
gcloud compute instances get-guest-attributes INSTANCE_NAME \
--zone ZONE
Dabei gilt:
INSTANCE_NAME
: durch den Namen der InstanzZONE
: Zone, in der sich Ihre Instanz befindet.
Wenn Ihre Hauptdienste fehlerfrei sind, sehen die Ergebnisse folgendermaßen aus.
Der Wert 1
bedeutet, dass kein Ausfall erkannt wurde.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status 1
notebooks docker_status 1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health 1
notebooks updated 2020-10-01 17:00:00.12345
Wenn einer der vier Hauptdienste fehlschlägt, meldet der Systemzustand den Wert -1
, um einen Systemausfall anzuzeigen. In den meisten Fällen bedeutet ein Systemausfall, dass JupyterLab nicht zugänglich ist.
Ein Beispiel für ein Ausfallergebnis könnte so aussehen:
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status -1
notebooks docker_status -1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health -1
notebooks updated 2020-10-01 17:00:00.12345
gcloud mit Vertex AI Workbench
Zum Monitoring des Systemzustands können Sie die Methode getInstanceHealth verwenden, um die Werte Ihrer Gastattribute abzurufen.
Im folgenden Beispiel wird gezeigt, wie das mit der gcloud CLI möglich ist.
gcloud notebooks instances is-healthy example-instance \
--location=ZONE
Ersetzen Sie ZONE
durch die Zone, in der sich die Instanz befindet, z. B. us-west1-a
.
Wenn Ihre Hauptdienste fehlerfrei sind, sehen die Ergebnisse folgendermaßen aus.
Der Wert 1
bedeutet, dass kein Ausfall erkannt wurde.
{ "health_state": HEALTHY, "docker-proxy-agent": 1, "docker-service": 1, "jupyter-service": 1, "jupyter-api": 1, "last-updated": "2020-10-01 17:00:30.12345" }
Ein Beispiel für ein Ausfallergebnis könnte so aussehen:
{ "healthy": UNHEALTHY, "docker-proxy-agent": 1, "docker-service": 1, "jupyter-service": -1, "jupyter-api": -1, "last-updated": "2020-10-01 17:00:30.12345" }
Benutzerdefinierte Messwerte an Monitoring melden
Mit nutzerverwalteten Notebookinstanzen können Sie den Systemstatus und JupyterLab-Messwerte erfassen und an Cloud Monitoring melden. Diese benutzerdefinierten Messwerte unterscheiden sich von den Standardmesswerten, die gemeldet werden, wenn Sie Monitoring auf Ihrer nutzerverwalteten Notebookinstanz installieren.
Zu den an Monitoring gemeldeten benutzerdefinierten Messwerten gehören:
Der Systemzustand dieser Hauptdienste für nutzerverwaltete Notebooks:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Die folgenden JupyterLab-Messwerte:
- Anzahl der Kernel
- Anzahl der Terminals
- Anzahl Verbindungen
- Anzahl der Sitzungen
- Maximaler Arbeitsspeicher
- Großer Speicher
- Aktueller Arbeitsspeicher
Wie Instanzen benutzerdefinierte Messwerte an Monitoring melden
Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie die Metadateneinstellung report-notebook-metrics
beim Erstellen einer nutzerverwalteten Notebookinstanz aktivieren.
Sie müssen außerdem dafür sorgen, dass das Dienstkonto der nutzerverwalteten Notebookinstanz die Berechtigung „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter
) hat. Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Nutzerverwaltete Notebookinstanz erstellen, die benutzerdefinierte Messwerte an Monitoring meldet
Wenn Sie benutzerdefinierte Messwerte an Monitoring melden möchten, müssen Sie das Kästchen Benutzerdefinierte Messwerte an Cloud Monitoring melden anklicken, wenn Sie eine nutzerverwaltete Notebookinstanz erstellen.
Sie können das Melden benutzerdefinierter Messwerte an Cloud Monitoring mit der Cloud Console oder der Google Cloud CLI aktivieren.
Hinweise
Bevor Sie eine nutzerverwaltete Notebookinstanz erstellen können, müssen Sie ein Google Cloud-Projekt haben und die Notebooks API für dieses Projekt aktivieren.- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Wenn Sie GPUs mit Ihrer nutzerverwalteten Notebooks-Instanz verwenden möchten, prüfen Sie auf der Seite „Kontingente“ in der Google Cloud Console, ob in Ihrem Projekt genügend GPUs verfügbar sind. Wenn auf der Seite "Kontingente" keine GPUs aufgeführt sind oder Sie zusätzliche GPU-Kontingente benötigen, können Sie eine Erhöhung des Kontingents beantragen. Weitere Informationen finden Sie auf der Compute Engine-Seite Ressourcenkontingente unter Ein höheres Kontingent anfordern.
Erforderliche Rollen
Wenn Sie das Projekt erstellt haben, haben Sie die IAM-Rolle „Inhaber“ (roles/owner
) für das Projekt, die alle erforderlichen Berechtigungen enthält. Überspringen Sie diesen Abschnitt und beginnen Sie mit der Erstellung Ihrer nutzerverwalteten Notebookinstanz. Wenn Sie das Projekt nicht selbst erstellt haben, fahren Sie mit diesem Abschnitt fort.
Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen einer nutzerverwalteten Notebookinstanz von Vertex AI Workbench hat:
- Notebooks-Administrator (
roles/notebooks.admin
) - Dienstkontonutzer (
roles/iam.serviceAccountUser
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Ihr Administrator kann Ihrem Nutzerkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.
Die Instanz erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf. Rufen Sie alternativ notebook.new (https://notebook.new) auf und überspringen Sie den nächsten Schritt.
Klicken Sie auf
Neues Notebook und wählen Sie dann Anpassen aus.Geben Sie auf der Seite Nutzerverwaltetes Notebook erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Instanzname: Ein Name für die neue Instanz.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt. Prüfen Sie die verfügbaren Standorte für vom Nutzer verwaltete Notebooks.
Wählen Sie den Abschnitt Systemzustand aus.
Klicken Sie im Bereich Systemzustand und Berichterstellung das Kästchen Benutzerdefinierte Messwerte an Cloud Monitoring melden an.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
gcloud
Geben Sie in Cloud Shell oder in einer Umgebung, in der die Google Cloud CLI installiert ist, den folgenden Befehl der Google Cloud CLI ein:
gcloud notebooks instances create INSTANCE_NAME \ --vm-image-project=deeplearning-platform-release \ --vm-image-family=IMAGE_FAMILY \ --machine-type=MACHINE_TYPE \ --location=ZONE \ --metadata=report-notebook-metrics=TRUE
Dabei gilt:
INSTANCE_NAME
: Name der neuen InstanzIMAGE_FAMILY
: der Image-Familienname, den Sie zum Erstellen Ihrer Instanz verwenden möchtenMACHINE_TYPE
: der Maschinentyp der VM Ihrer Instanz, z. B.n1-standard-4
ZONE
: die Zone, in der sich die neue Instanz befinden soll, z. B.us-west1-a
Greifen Sie über die Google Cloud Console auf Ihre Instanz zu.
Dem Dienstkonto die Berechtigungen von „Monitoring-Messwert-Autor“ erteilen
Nachdem Sie die neue nutzerverwaltete Notebookinstanz erstellt haben, erteilen Sie dem Dienstkonto für die nutzerverwaltete Notebookinstanz die Berechtigungen von „Monitoring-Messwert-Autor“ (roles/monitoring.metricWriter
).
Weitere Informationen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Benutzerdefinierte Messwerte mit Monitoring beobachten
Für nutzerverwaltete Notebookinstanzen, für die das Melden benutzerdefinierter Messwerte aktiviert ist, können Sie Ihre benutzerdefinierten Messwerte mithilfe der Google Cloud Console überwachen.
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf.
Klicken Sie auf den Namen der Instanz, deren benutzerdefinierte Messwerte Sie aufrufen möchten.
Klicken Sie auf der Seite Notebookdetails auf den Tab Monitoring. Sehen Sie sich die benutzerdefinierten Messwerte für Ihre Instanz an.
Monitoring auf einer Instanz installieren
Mit dieser Option wird Monitoring automatisch installiert. Die Installation erfordert 256 MB Speicherplatz. Eine Internetverbindung ist erforderlich, damit die Messwerte an Monitoring gemeldet werden können.
Wie Instanzen System- und Anwendungsmesswerte melden
Wenn Sie System- und Anwendungsmesswerte melden möchten, indem Sie Cloud Monitoring auf Ihrer nutzerverwalteten Notebookinstanz installieren, müssen Sie das Kästchen Cloud Monitoring-Agent installieren anklicken, wenn Sie eine nutzerverwaltete Notebookinstanz erstellen.
Diese Messwerte unterscheiden sich von den benutzerdefinierten Messwerten, die gemeldet werden, wenn Sie die Metadateneinstellung report-notebook-metrics
aktivieren.
Nutzerverwaltete Notebookinstanz erstellen, die System- und Anwendungsmesswerte an Monitoring meldet
Sie können Monitoring auf Ihrer nutzerverwalteten Notebookinstanz entweder über die Google Cloud Console oder die Google Cloud CLI installieren.
Hinweise
Bevor Sie eine nutzerverwaltete Notebookinstanz erstellen können, müssen Sie ein Google Cloud-Projekt haben und die Notebooks API für dieses Projekt aktivieren.- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Wenn Sie GPUs mit Ihrer nutzerverwalteten Notebooks-Instanz verwenden möchten, prüfen Sie auf der Seite „Kontingente“ in der Google Cloud Console, ob in Ihrem Projekt genügend GPUs verfügbar sind. Wenn auf der Seite "Kontingente" keine GPUs aufgeführt sind oder Sie zusätzliche GPU-Kontingente benötigen, können Sie eine Erhöhung des Kontingents beantragen. Weitere Informationen finden Sie auf der Compute Engine-Seite Ressourcenkontingente unter Ein höheres Kontingent anfordern.
Erforderliche Rollen
Wenn Sie das Projekt erstellt haben, haben Sie die IAM-Rolle „Inhaber“ (roles/owner
) für das Projekt, die alle erforderlichen Berechtigungen enthält. Überspringen Sie diesen Abschnitt und beginnen Sie mit der Erstellung Ihrer nutzerverwalteten Notebookinstanz. Wenn Sie das Projekt nicht selbst erstellt haben, fahren Sie mit diesem Abschnitt fort.
Bitten Sie Ihren Administrator, Ihrem Nutzerkonto die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Ihr Nutzerkonto die erforderlichen Berechtigungen zum Erstellen einer nutzerverwalteten Notebookinstanz von Vertex AI Workbench hat:
- Notebooks-Administrator (
roles/notebooks.admin
) - Dienstkontonutzer (
roles/iam.serviceAccountUser
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Ihr Administrator kann Ihrem Nutzerkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.
Die Instanz erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf. Rufen Sie alternativ notebook.new (https://notebook.new) auf und überspringen Sie den nächsten Schritt.
Klicken Sie auf
Neues Notebook und wählen Sie dann Anpassen aus.Geben Sie auf der Seite Nutzerverwaltetes Notebook erstellen im Abschnitt Details die folgenden Informationen für Ihre neue Instanz ein:
- Instanzname: Ein Name für die neue Instanz.
- Region und Zone: Wählen Sie eine Region und eine Zone für die neue Instanz aus. Wählen Sie für eine optimale Netzwerkleistung die Region aus, die Ihnen geografisch am nächsten liegt. Prüfen Sie die verfügbaren Standorte für vom Nutzer verwaltete Notebooks.
Wählen Sie den Abschnitt Systemzustand aus.
Klicken Sie im Bereich Systemzustand und Berichterstellung das Kästchen Cloud Monitoring-Agent installieren an.
Schließen Sie den Rest des Dialogfelds zur Instanzerstellung ab und klicken Sie dann auf Erstellen.
gcloud
Geben Sie in Cloud Shell oder in einer Umgebung, in der die Google Cloud CLI installiert ist, den folgenden Befehl der Google Cloud CLI ein:
gcloud notebooks instances create INSTANCE_NAME \ --vm-image-project=deeplearning-platform-release \ --vm-image-family=IMAGE_FAMILY \ --machine-type=MACHINE_TYPE \ --location=ZONE \ --metadata=install-monitoring-agent=TRUE
Dabei gilt:
INSTANCE_NAME
: Name der neuen InstanzIMAGE_FAMILY
: der Image-Familienname, den Sie zum Erstellen Ihrer Instanz verwenden möchtenMACHINE_TYPE
: der Maschinentyp der VM Ihrer Instanz, z. B.n1-standard-4
ZONE
: die Zone, in der sich die neue Instanz befinden soll, z. B.us-west1-a
Greifen Sie über die Google Cloud Console auf Ihre Instanz zu.
System- und Anwendungsmesswerte über Monitoring überwachen
Für nutzerverwaltete Notebookinstanzen, auf denen Monitoring installiert ist, können Sie Ihre System- und Anwendungsmesswerte mithilfe der Google Cloud Console überwachen:
Rufen Sie in der Google Cloud Console die Seite Nutzerverwaltete Notebooks auf.
Klicken Sie auf den Instanznamen, für den Sie die System- und Anwendungsmesswerte aufrufen möchten.
Klicken Sie auf der Seite Notebookdetails auf den Tab Monitoring. Sehen Sie sich die System- und Anwendungsmesswerte für Ihre Instanz an. Informationen zum Interpretieren dieser Messwerte finden Sie unter Ressourcenmesswerte überprüfen.
Systemzustand mit dem Diagnosetool überwachen
Nutzerverwaltete Notebookinstanzen enthalten ein integriertes Diagnosetool, mit dem Sie den Systemzustand Ihrer Instanzen überwachen können.
Vom Diagnosetool ausgeführte Aufgaben
Das Diagnosetool führt die folgenden Aufgaben aus:
Verifiziert den Status der folgenden nutzerverwalteten Notebook-Hauptdienste:
- Docker-Dienst
- Docker-Reverse-Proxy-Agent
- Jupyter-Dienst
- Jupyter API
Prüft, ob der Speicherplatz für Boot- und Datenlaufwerke über einen Grenzwert von 85 % hinaus verwendet wird.
Installiert
lsof
(Internetverbindung erforderlich).Erfasst die folgenden Instanzlogs:
- Netzwerkinformationen (
ifconfig
,netstat
) - Logs im Ordner
/var/log/
- Docker-Statusinformationen
lsof
-Daten (geöffnete Dateien)- Docker-Dienststatus
- Status des Proxy-Reverse-Agents
- Jupyter-Dienststatus
- Jupyter API-Status
- Konfigurationsdatei für den Proxy-Agent
- Python-Prozesse
- Netzwerkinformationen (
Führt die folgenden Befehle aus und erfasst die Ergebnisse:
- pip freeze
- conda list
- gcloud compute instances describe
INSTANCE_NAME
- gcloud config list
Diagnosetool ausführen
Führen Sie die folgenden Schritte aus, um das Diagnosetool auszuführen:
Stellen Sie eine SSH-Verbindung zur nutzerverwalteten Notebookinstanz her.
Führen Sie im SSH-Terminal die folgenden Befehle aus:
sudo -i cd /opt/deeplearning/bin/ ./diagnostic_tool.sh
Das Diagnosetool erfasst die Logs, komprimiert sie in einer
.tar.gz
-Datei und speichert die Datei im Ordner/tmp/
.Extrahieren Sie die Datei und bewerten Sie den Inhalt. Die Inhalte umfassen:
log
-Ordner: Logs aus dem Ordnervar/log/
report.log
: Ausgabe für alle erfassten Befehleproxy-agent-config.json
: Informationen zur Proxykonfiguration- Docker-Log: Eine
-json.log
-Datei, die Docker-Containerlogs enthält
Sie können die folgenden Optionen mit dem Diagnosetool verwenden.
Option | Beschreibung |
---|---|
-r | Eine Reparaturoption, die versucht, den Status fehlgeschlagener Hauptdienste für nutzerverwaltete Notebooks wiederherzustellen |
-s | Ausführung ohne Bestätigung |
-b |
Lädt die Datei .tar.gz in einen Cloud Storage-Bucket hoch
|
-v | Debugging-Option für die Fehlerbehebung im Fall von Ausfällen |
-c | Erfasst 30 Sekunden Paket-Traffic in Ihre nutzerverwaltete Notebookinstanz und filtert SSH |
-d | Ein Zielordner, in dem die Logs gespeichert werden sollen |
-h | Hilfe |