Offene Warnungen abfragen und ansehen

Nachdem Sie Benachrichtigungsregeln in Ihrem Google Distributed Cloud-Projekt (GDC) für Air-Gap-Appliances erstellt haben, können Sie Benachrichtigungen in Dashboards abfragen und ansehen über die Benutzeroberfläche der Systemmonitoring-Instanz des Projekts  oder Benachrichtigungen über die GDC Observability HTTP API abfragen.

Benachrichtigungen in Dashboards abfragen und ansehen

Sie können sich Benachrichtigungen in Dashboards in der Systemmonitoring-Instanz des Projekts platform-obs.

Die Systemüberwachungsinstanz umfasst Messwerte, Logs und Benachrichtigungen auf Projektebene, um Überwachungsprozesse wie Netzwerk- und Serverüberwachung durchzuführen.

Hinweise

Bevor Sie Benachrichtigungen in Dashboards abfragen und ansehen können, müssen Sie Zugriff auf die Instanz zur Systemüberwachung erhalten. Weitere Informationen finden Sie unter Zugriff auf Dashboards erhalten.

Bitten Sie Ihren Projekt-IAM-Administrator, Ihnen die Rolle „Projekt-Grafana-Betrachter“ (project-grafana-viewer) zuzuweisen, damit Sie sich anmelden und Benachrichtigungen visualisieren können. Mit diesem rollenbasierten Verfahren zur Zugriffssteuerung können Sie sicher auf Datenvisualisierungen zugreifen.

Instanzendpunkt für das Systemmonitoring

Für Application Operator (AO):

Öffnen Sie die folgende URL, um auf den Endpunkt Ihres Projekts zuzugreifen:

https://GDC_URL/PROJECT_NAMESPACE/grafana

Ersetzen Sie Folgendes:

  • GDC_URL: Die URL Ihrer Organisation in GDC.
  • PROJECT_NAMESPACE: Der Namespace Ihres Projekts.

Die Benutzeroberfläche des Projekts enthält Standarddashboards wie das Dashboard Benachrichtigungen – Übersicht mit Informationen zu Benachrichtigungen. Wenn Sie Benachrichtigungen über die Benutzeroberfläche abfragen, können Sie Benachrichtigungsinformationen aus Ihrem Projekt visuell abrufen und erhalten eine integrierte Ansicht der Ressourcen, um Probleme zu erkennen und schnell zu beheben.

Für Plattformadministratoren:

Öffnen Sie die folgende URL, um auf den Endpunkt Ihres platform-obs-Projekts zuzugreifen:

https://GDC_URL/platform-obs/grafana

Ersetzen Sie GDC_URL durch die URL Ihrer Organisation in GDC.

Die Benutzeroberfläche der Systemüberwachungsinstanz enthält Standarddashboards wie das Dashboard Benachrichtigungen – Übersicht mit Informationen zu Benachrichtigungen für die Datenbeobachtbarkeit. Wenn Sie Benachrichtigungen über die Benutzeroberfläche abfragen, können Sie Benachrichtigungsinformationen aus Ihrem Projekt visuell abrufen und erhalten eine integrierte Ansicht der Ressourcen, um Probleme zu erkennen und schnell zu beheben.

Im Dashboard „Benachrichtigungen – Übersicht“ finden Sie Informationen zur Anzahl der Benachrichtigungen für eine bestimmte Datenquelle sowie ein Liniendiagramm des Benachrichtigungsverlaufs, in dem die Anzahl der offenen Benachrichtigungen pro Stunde für die Datenquelle dargestellt wird.

Abbildung 1. Das Dashboard Alerts – Overview (Benachrichtigungen – Übersicht) in der Grafana-Benutzeroberfläche.

Alertmanager

Mit Alertmanager können Sie Benachrichtigungen von Clientanwendungen überwachen. Sie können Benachrichtigungen mit Alertmanager prüfen und stummschalten sowie filtern oder gruppieren:

Benachrichtigungen zu Audit-Logs für Loki-Ablehnung im Root-Administratorcluster ignorieren

Abbildung 2. Menüoption zum Abfragen von Audit-Logs aus dem Alertmanager.

Vordefinierte Benachrichtigungsrichtlinien

In der folgenden Tabelle sind die vorinstallierten Benachrichtigungsregeln in Prometheus aufgeführt:

Name Beschreibung
KubeAPIDown (kritisch) KubeAPI ist seit 15 Minuten nicht mehr in der Prometheus-Zielerkennung enthalten.
KubeClientErrors (Warnung) Fehlerrate der Kubernetes API-Serverfehler > 0,01 für 15 Minuten
KubeClientErrors (kritisch) Fehlerrate der Kubernetes API-Serverfehler > 0,1 für 15 Minuten
KubePodCrashLooping (Warnung) Der Pod befindet sich seit mehr als 15 Minuten im Absturzstatus.
KubePodNotReady (Warnung) Der Pod ist seit mehr als 15 Minuten nicht bereit.
KubePersistentVolumeFillingUp (kritisch) Kostenlose Byte eines beanspruchten PersistentVolumes < 0,03.
KubePersistentVolumeFillingUp (Warnung) Kostenlose Byte eines beanspruchten PersistentVolumes < 0,15.
KubePersistentVolumeErrors (kritisch) Das nichtflüchtige Volume ist fünf Minuten lang in der Phase „Fehlgeschlagen“ oder „Ausstehend“.
KubeNodeNotReady (Warnung) Der Knoten ist seit mehr als 15 Minuten nicht mehr bereit.
KubeNodeCPUUsageHigh (kritisch) Die CPU-Auslastung des Knotens beträgt > 80%.
KubeNodeMemoryUsageHigh (kritisch) Die Speichernutzung des Knotens beträgt > 80 %.
NodeFilesystemSpaceFillingUp (Warnung) Die Nutzung des Knotendateisystems beträgt über 60%.
NodeFilesystemSpaceFillingUp (kritisch) Die Nutzung des Knotendateisystems beträgt mehr als 85%.
CertManagerCertExpirySoon (Warnung) Ein Zertifikat läuft in 21 Tagen ab.
CertManagerCertNotReady (kritisch) Ein Zertifikat kann nach 10 Minuten noch nicht für die Bereitstellung von Traffic verwendet werden.
CertManagerHittingRateLimits (kritisch) Eine Ratenbegrenzung wurde erreicht, nachdem fünf Minuten lang Zertifikate erstellt und verlängert wurden.
DeploymentNotReady (kritisch). Ein Deployment im Administratorcluster der Organisation ist seit mehr als 15 Minuten nicht bereit.

Beispiel für AlertmanagerConfigurationConfigmaps

Die Syntax von Konfigurationen in ConfigMaps, die in alertmanagerConfigurationConfigmaps aufgeführt sind, muss https://prometheus.io/docs/alerting/latest/configuration/ entsprechen.

apiVersion: observability.gdc.goog/v1alpha1
kind: ObservabilityPipeline
metadata:
  # Choose namespace that matches the project's namespace
  namespace: kube-system
  name: observability-config
# Configure Alertmanager
 alerting:
  # Storage size for alerting data within organization
  # Permission: PA
  localStorageSize: 1Gi

  # Permission: PA & AO
  # alertmanager config must be under the key "alertmanager.yml" in the configMap
  alertmanagerConfig: <configmap-for-alertmanager-config>

  # Permission: PA
  volumes:
    - <volume referenced in volumeMounts>

  # Permission: PA
  volumeMounts:
    - <volumeMount referenced in alertmanagerConfig>

Beispielkonfiguration für Regeln

# Configures either an alert or a target record for precomputation
apiVersion: monitoring.gdc.goog/v1alpha1
kind: MonitoringRule
metadata:
  # Choose namespace that contains the metrics that rules are based on
  # Note: alert/record will be produced in the same namespace
  namespace: g-fleetns-a
  name: alerting-config
spec:
  # Rule evaluation interval
  interval: <duration>

  # Configure limit for number of alerts (0: no limit)
  # Optional, Default: 0 (no limit)
  limit: <int>

  # Configure record rules
  recordRules:
    # Define which timeseries to write to (must be a valid metric name)
  - record: <string>

    # Define PromQL expression to evaluate for this rule
    expr: <string>

    # Define labels to add or overwrite
    # Optional, Map of {key, value} pairs
    labels:
      <labelname>: <labelvalue>

  # Configure alert rules
  alertRules:
    # Define alert name 
  - alert: <string>

    # Define PromQL expression to evaluate for this rule
    # https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/
    expr: <string>

    # Define when an active alert moves from pending to firing
    # Optional, Default: 0s
    for: <duration>

    # Define labels to add or overwrite
    # Required, Map of {key, value} pairs
    # Required labels: 
    #     severity: [error, critical, warning, info]
    #     code: 
    #     resource: component/service/hardware related to alert
    #     additional labels are optional
    labels:
      severity: <enum: [error, critical, warning, info]>
      code: 
      resource: <Short name of the related operable component>
      <labelname>: <tmpl_string>

    # Define annotations to add
    # Optional, Map of {key, value} pairs
    # Recommended annotations:
    #     message: value of Message field in UI
    #     expression: value of Rule field in UI
    #     runbookurl: URL for link in Actions to take field in UI
    annotations:
      <labelname>: <tmpl_string>
# Configures either an alert or a target record for precomputation
apiVersion: logging.gdc.goog/v1alpha1
kind: LoggingRule
metadata:
  # Choose namespace that contains the logs that rules are based on
  # Note: alert/record will be produced in the same namespace
  namespace: g-fleetns-a
  name: alerting-config
spec:
  # Choose which log source to base alerts on (Operational/Audit/Security Logs)
  # Optional, Default: Operational
  source: <string>

  # Rule evaluation interval
  interval: <duration>

  # Configure limit for number of alerts (0: no limit)
  # Optional, Default: 0 (no limit)
  limit: <int>

  # Configure record rules
  recordRules:
    # Define which timeseries to write to (must be a valid metric name)
  - record: <string>

    # Define LogQL expression to evaluate for this rule
    # https://grafana.com/docs/loki/latest/rules/
    expr: <string>

    # Define labels to add or overwrite
    # Optional, Map of {key, value} pairs
    labels:
      <labelname>: <labelvalue>

  # Configure alert rules
  alertRules:
    # Define alert name
  - alert: <string>

    # Define LogQL expression to evaluate for this rule
    expr: <string>

    # Define when an active alert moves from pending to firing
    # Optional, Default: 0s
    for: <duration>

    # Define labels to add or overwrite
    # Required, Map of {key, value} pairs
    # Required labels: 
    #     severity: [error, critical, warning, info]
    #     code: 
    #     resource: component/service/hardware related to alert
    #     additional labels are optional
    labels:
      severity: <enum: [error, critical, warning, info]>
      code:
      resource: <Short name of the related operable component>
      <labelname>: <tmpl_string>

    # Define annotations to add
    # Optional, Map of {key, value} pairs
    # Recommended annotations:
    #     message: value of Message field in UI
    #     expression: value of Rule field in UI
    #     runbookurl: URL for link in Actions to take field in UI
    annotations:
      <labelname>: <tmpl_string>

Benachrichtigungen über die HTTP API abfragen

Die Observability-Plattform stellt einen HTTP-API-Endpunkt zum Abfragen und Lesen von Messwerten, Benachrichtigungen und anderen Zeitachsendaten aus Ihrem Projekt für die Systemüberwachung bereit.

Sie können Abfragebenachrichtigungen direkt über die Observability HTTP API abrufen, um automatisierte Aufgaben einzurichten, Antworten anzupassen und Integrationen entsprechend Ihrem Anwendungsfall zu erstellen. Sie können die Ausgabe beispielsweise in einen anderen Befehl einfügen, Details in Textdateiformate exportieren oder einen Linux-Cronjob konfigurieren. Sie können die Observability HTTP API über die Befehlszeilenschnittstelle (CLI) oder einen Webbrowser aufrufen und das Ergebnis im JSON-Format abrufen.

In diesem Abschnitt wird erläutert, wie Sie den Observability HTTP API-Endpunkt über die CLI aufrufen, um mithilfe derAPI-Spezifikation Benachrichtigungen abzufragen.

Sie können Abfragebenachrichtigungen direkt über die Observability HTTP API abrufen, um automatisierte Aufgaben einzurichten, Antworten anzupassen und Integrationen entsprechend Ihrem Anwendungsfall zu erstellen. Sie können die Ausgabe beispielsweise in einen anderen Befehl einfügen, Details in Textdateiformate exportieren oder einen Linux-Cronjob konfigurieren. Sie können die Observability HTTP API über die Befehlszeilenschnittstelle (CLI) oder einen Webbrowser aufrufen und das Ergebnis im JSON-Format abrufen.

In diesem Abschnitt wird beschrieben, wie Sie den Observability HTTP API-Endpunkt über die CLI aufrufen, um Messwerte abzufragen. Dazu verwenden Sie die Alertmanager API-Spezifikation.

Hinweise

Bitten Sie Ihren Projekt-IAM-Administrator, Ihnen die Rolle „Project Cortex Alertmanager Viewer“ (project-cortex-alertmanager-viewer) in Ihrem Projektnamespace zuzuweisen, um die Berechtigungen zu erhalten, die Sie für den Zugriff auf den Observability HTTP API-Endpunkt benötigen.

Der Projekt-IAM-Administrator kann Ihnen Zugriff gewähren, indem er eine Rollenbindung erstellt:

a. Infrastructure Operator (IO) Root-Admin – Project Cortex Alertmanager Viewer:

kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding 
io-cortex-alertmanager-viewer-binding -n infra-obs 
--user=fop-infrastructure-operator@example.com 
--role=project-cortex-alertmanager-viewer

b. Plattformadministrator (PA) – Root-Administrator – Project Cortex Alertmanager Viewer:

kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding
pa-cortex-alertmanager-viewer-binding -n platform-obs 
--user=fop-platform-admin@example.com 
--role=project-cortex-alertmanager-viewer

c. Application Operator (AO) Root-Admin – Project Cortex Alertmanager Viewer: Projekt: $AO_PROJECT AO-Nutzername: $AO_USER

kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding 
project-cortex-alertmanager-viewer-binding -n $AO_PROJECT 
--user=$AO_USER 
--role=project-cortex-alertmanager-viewer

Nachdem die Rollenbindung erstellt wurde, können Sie mit Ihrem Anmeldenamen auf den entsprechenden Alertmanager zugreifen.

Rollenbindung prüfen

kubectl --kubeconfig $HOME/org-1-admin-kubeconfig get rolebinding -n platform-obs

Informationen zum Festlegen von Rollenbindungen über die GDC-Konsole finden Sie unter Zugriff auf Ressourcen gewähren.

Cortex-Endpunkt

Die folgende URL ist der Cortex-Endpunkt für den Zugriff auf Benachrichtigungen:

https://GDC_URL/PROJECT_NAME/cortex/alertmanager/

Ersetzen Sie Folgendes:

  • GDC_URL: Die URL Ihrer Organisation in GDC.
  • PROJECT_NAME ist der Name Ihres Projekts.

API-Endpunkt aufrufen

So greifen Sie über die CLI auf den Cortex API-Endpunkt zu und fragen Benachrichtigungen ab:

  1. Prüfen Sie, ob Sie die Voraussetzungen erfüllen.
  2. Öffnen Sie die Befehlszeilenschnittstelle.
  3. Verwenden Sie das Tool curl, um die Cortex-Endpunkt-URL aufzurufen und die URL mit dem Standard https://prometheus.io/docs/prometheus/latest/querying/api/#alertmanagers zu erweitern, um Benachrichtigungen abzufragen. Beispiel:

    curl https://console.org-1.zone1.google.gdch.test/alice/cortex/alertmanager/api/v1/alertmanagers
    

Die Ausgabe wird in der CLI nach dem Befehl angezeigt. Das API-Antwortformat ist JSON.