Systemzustand mit Node Problem Detector überwachen

Ab Meilenstein 77 enthält Container-Optimized OS den Agent Node Problem Detector. Mit dieser Funktion können Sie den Systemzustand von COS-Instanzen kontrollieren. Der Node Problem Detector überwacht den Instanzstatus und meldet Cloud Monitoring Messwerte, die sich auf den Status beziehen, z. B. Kapazitäts- und Fehlermesswerte, die Sie dann mit den Dashboards der Operations-Suite von Google Cloud visualisieren können. Erfasste Messwerte aus der Standardkonfiguration sind kostenlos. Google verwendet aggregierte Messwerte, um Knotenprobleme zu verstehen und die Zuverlässigkeit von Container-Optimized OS zu verbessern.

Die zu exportierenden Messwerten sind beim Agent bereits konfiguriert. Das Anpassen von Messwerten für den integrierten Agent wird derzeit nicht unterstützt. Node Problem Detector ist eine Open-Source-Software. Sie können den Quellcode und die Konfigurationen in den entsprechenden Quell-Repositories einsehen.

Aktivieren des Zustands-Monitorings

Das Feature ist beim Start standardmäßig deaktiviert. Sie können diese Funktion mit cloud-init oder einem Startskript aktivieren.

Im cloud-init-Beispiel werden die Grundlagen der Konfiguration einer Container-Optimized OS-Instanz erläutert. Beim folgenden cloud-config-Beispiel können Sie cloud-init verwenden, um die Statusüberwachung zu aktivieren:

#cloud-config

bootcmd:
- systemctl start node-problem-detector

Anzeigen der gesammelten Messwerte

Der Node Problem Detector meldet eine Liste von Messwerten für eine überwachte Compute Engine-Instanzressource. Die Messwerte sind in der Liste der Monitoring-Messwerte mit dem Präfix compute.googleapis.com/guest/ dokumentiert. Die erfassten Messwerte können Sie mit dem Monitoring Metrics Explorer aufrufen:

  1. Wählen Sie in der Google Cloud Console Monitoring aus oder verwenden Sie die folgende Schaltfläche:

    Zu Monitoring

  2. Klicken Sie im Monitoring-Navigationsbereich auf Metrics Explorer.

  3. Wählen Sie als Ressourcentyp Compute Engine-VM-Instanz aus.

  4. Wählen Sie einen Messwert aus, zum Beispiel "Problemanzahl".

  5. Auf der rechten Seite sollten Diagramme und Statistiken angezeigt werden. Wenn Sie das Ergebnis für eine bestimmte Container-Optimized OS-Instanz aufrufen möchten, setzen Sie den Filter auf "instance_id=[INSTANCE_ID]" und ersetzen Sie [INSTANCE_ID] durch die ID der gewünschten Instanz.

Deaktivieren des Zustands-Monitorings

Das Feature ist beim Start standardmäßig deaktiviert. Wenn Sie das Feature bereits aktiviert haben, es aber jetzt deaktivieren möchten, entfernen Sie den Schritt systemctl start node-problem-detector in Ihrem Startskript und cloud-config und starten Sie die Container-Optimized OS-Instanz neu.