Benachrichtigungsrichtlinien erstellen

Auf dieser Seite wird gezeigt, wie Sie Benachrichtigungsrichtlinien für GDCV für Bare-Metal-Cluster erstellen.

Hinweise

Sie benötigen die folgenden Berechtigungen, um Benachrichtigungsrichtlinien zu erstellen:

  • monitoring.alertPolicies.create
  • monitoring.alertPolicies.delete
  • monitoring.alertPolicies.update

Sie haben diese Berechtigungen, wenn Sie eine der folgenden Rollen haben:

  • monitoring.alertPolicyEditor
  • monitoring.editor
  • Projektbearbeiter
  • Projektinhaber

Rufen Sie die IAM-Seite in der Google Cloud Console auf, um Ihre Rollen zu prüfen.

Beispielrichtlinie erstellen: API-Server nicht verfügbar

In dieser Übung erstellen Sie eine Benachrichtigungsrichtlinie für Kubernetes API-Server von Clustern. Mit dieser Richtlinie können Sie festlegen, dass Sie benachrichtigt werden, wenn der API-Server eines Clusters nicht verfügbar ist.

  1. Laden Sie die Richtlinienkonfigurationsdatei herunter: apiserver-unavailable.json

  2. Erstellen Sie die Richtlinie:

    gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
    

    Ersetzen Sie POLICY_CONFIG durch den Pfad der soeben heruntergeladenen Konfigurationsdatei.

  3. Rufen Sie die Benachrichtigungsrichtlinien auf:

    Console

    1. Rufen Sie in der Google Cloud Console die Seite Monitoring auf.

      Zu Monitoring

    2. Wählen Sie links Benachrichtigungen aus.

    3. Unter Richtlinien finden Sie eine Liste Ihrer Benachrichtigungsrichtlinien.

      Wählen Sie in der Liste Anthos Cluster API-Server nicht verfügbar (kritisch) aus, um Details zu Ihrer neuen Richtlinie aufzurufen. Unter Bedingungen finden Sie eine Beschreibung der Richtlinie. Beispiel:

      Policy violates when ANY condition is met
      Anthos cluster API server uptime is absent for 5m
      

    gcloud

    gcloud alpha monitoring policies list
    

    Die Ausgabe enthält detaillierte Informationen zur Richtlinie. Beispiel:

    combiner: OR
    conditions:
    - conditionAbsent:
        aggregations:
        - alignmentPeriod: 60s
          crossSeriesReducer: REDUCE_MEAN
          groupByFields:
          - resource.label.project_id
          - resource.label.location
          - resource.label.cluster_name
          - resource.label.namespace_name
          - resource.label.container_name
          - resource.label.pod_name
          perSeriesAligner: ALIGN_MAX
        duration: 300s
        filter: resource.type = "k8s_container" AND metric.type = "kubernetes.io/anthos/container/uptime"
          AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
        trigger:
          count: 1
      displayName: Anthos cluster API server uptime is absent for 5m
      name: projects/…/alertPolicies/…/conditions/…
    displayName: Anthos cluster API server unavailable (critical)
    enabled: true
    mutationRecord:
      mutateTime: …
      mutatedBy: …
    name: projects/…/alertPolicies/…
    

Zusätzliche Benachrichtigungsrichtlinien erstellen

Dieser Abschnitt enthält Beschreibungen und Konfigurationsdateien für eine Reihe empfohlener Benachrichtigungsrichtlinien.

Führen Sie die gleichen Schritte aus, die Sie in der vorherigen Anleitung verwendet haben, um eine Richtlinie zu erstellen:

  1. Klicken Sie auf den Link in der rechten Spalte, um die Konfigurationsdatei herunterzuladen.

  2. Sie können die Bedingungen optional an Ihre spezifischen Anforderungen anpassen. Sie können beispielsweise zusätzliche Filter für eine Teilmenge von Clustern hinzufügen oder die Schwellenwerte anpassen, um ein Gleichgewicht zwischen Rauschen und Kritikalität herzustellen.

  3. Führen Sie gcloud alpha monitoring policies create aus, um die Richtlinie zu erstellen.

Sie können alle in diesem Dokument beschriebenen Beispiele für Benachrichtigungsrichtlinien mit dem folgenden Skript herunterladen und installieren:

# 1. Create a directory named alert_samples:

mkdir alert_samples && cd alert_samples
declare -a alerts=("apiserver-unavailable.json" "controller-manager-unavailable.json" "scheduler-unavailable.json" \
  "pod-crash-looping.json" "pod-not-ready-1h.json" "container-cpu-usage-high-reaching-limit.json" \
  "container-memory-usage-high-reaching-limit.json" "persistent-volume-usage-high.json" "node-cpu-usage-high.json" \
  "node-disk-usage-high.json" "node-memory-usage-high.json" "node-not-ready-1h.json" "apiserver-error-ratio-high.json" \
  "etcd-leader-changes-or-proposal-failures-frequent.json" "etcd-server-not-in-quorum.yaml" "etcd-storage-usage-high.json")

# 2. Download all alert samples into the alert_samples/ directory:

for x in "${alerts[@]}"
do
  wget https://cloud.google.com/anthos/clusters/docs/bare-metal/1.16/samples/${x}
done

# 3. (optional) Uncomment and provide your project ID to set the default project
# for gcloud commands:

# gcloud config set project <PROJECT_ID>

# 4. Create alert policies for each of the downloaded samples:

for x in "${alerts[@]}"
do
  gcloud alpha monitoring policies create --policy-from-file=${x}
done

Verfügbarkeit von Komponenten der Steuerungsebene

Name der Benachrichtigung Beschreibung Benachrichtigungsrichtlinie in Cloud Monitoring definieren
API-Server nicht verfügbar (kritisch) Der Messwert für die Betriebszeit des API-Servers ist nicht verfügbar apiserver-unavailable.json
Planer nicht verfügbar (kritisch) Messwert für die Planerlaufzeit ist nicht verfügbar scheduler-unavailable.json
Controller-Manager nicht verfügbar (kritisch) Der Messwert zur Verfügbarkeit des Controller-Managers ist nicht verfügbar controller-manager-unavailable.json

Kubernetes-System

Name der Benachrichtigung Beschreibung Benachrichtigungsrichtlinie in Cloud Monitoring definieren
Schleife des Pod-Absturzes (Warnung) Pod wird ständig neu gestartet und befindet sich möglicherweise in einer Absturzschleife pod-crash-looping.json
Pod länger als eine Stunde nicht bereit (kritisch) Pod ist seit mehr als einer Stunde nicht einsatzbereit pod-not-ready-1h.json
Die CPU-Nutzung des Containers überschreitet 80 % (Warnung) Die Container-CPU-Nutzung liegt über 80% des Limits container-cpu-usage-high-reaching-limit.json
Die Nutzung des Containerarbeitsspeichers überschreitet 85 % (Warnung) Die Nutzung des Containerarbeitsspeichers liegt über 85% des Limits container-memory-usage-high-reaching-limit.json
Hohe Nutzung des nichtflüchtigen Volumes (kritisch) Das beanspruchte nichtflüchtige Volume hat weniger als 3 % freien Speicherplatz persistent-volume-usage-high.json
Die CPU-Nutzung des Knotens überschreitet 80 % (Warnung) Die CPU-Auslastung des Knotens beträgt über 80% der insgesamt zuweisbaren 5 Min. node-cpu-usage-high.json
Die Nutzung des Knotenlaufwerks überschreitet 85 % (Warnung) Weniger als 15 % pro Laufwerksbereitstellungspunkt 10 Minuten lang kostenlos node-disk-usage-high.json
Die Arbeitsspeichernutzung des Knotens überschreitet 80 % (Warnung) Die Knotenarbeitsspeichernutzung liegt für über 80% der insgesamt zuweisbaren 5 Min. node-memory-usage-high.json
Knoten länger als eine Stunde nicht bereit (kritisch) Knoten ist seit mehr als einer Stunde nicht einsatzbereit node-not-ready-1h.json

Kubernetes-Leistung

Name der Benachrichtigung Beschreibung Benachrichtigungsrichtlinie in Cloud Monitoring definieren
API-Serverfehlerverhältnis über 20 % (kritisch) Der API-Server gibt 5xx- oder 429-Fehler bei mehr als 20% aller Anfragen pro Verb innerhalb von 15 Minuten aus. apiserver-error-ratio-high.json
Änderung des ETCD-Leiter oder Angebotsfehler zu häufig (Warnung) Die Führungsperson von etcd nimmt zu häufig Änderungen vor oder schlägt Angebote fehl etcd-leader-changes-or-proposal-failures-frequent.json
ETCD-Server ist nicht im Quorum (kritisch) Für 5 Minuten wurde kein Commit für etcd Servervorschläge durchgeführt. Möglicherweise ist das Quorum verloren. etcd-server-not-in-quorum.yaml
ETCD-Speicher überschreitet 90 %-Limit (Warnung) Die Speichernutzung von etcd liegt über 90% des Limits etcd-storage-usage-high.json

Benachrichtigungsrichtlinien mit PromQL

Die Abfragen in Benachrichtigungsrichtlinien können auch in PromQL anstelle von MQL ausgedrückt werden. Beispielsweise kann die PromQL-Version der Richtlinie API server error ratio exceeds 20 percent (critical) heruntergeladen werden: apiserver-error-ratio-high-promql.json.

Weitere Informationen finden Sie in der Dokumentation Managed Service for Prometheus verwenden für GDCV for Bare Metal und unter Benachrichtigungsrichtlinien mit PromQL für Cloud Monitoring.

Benachrichtigungen erhalten

Nachdem Sie eine Benachrichtigungsrichtlinie erstellt haben, können Sie einen oder mehrere Benachrichtigungskanäle für die Richtlinie definieren. Es gibt verschiedene Arten von Benachrichtigungskanälen. Beispielsweise können Sie sich per E-Mail, mit einem Slack-Kanal oder mit einer mobilen App benachrichtigen lassen. Sie können die Kanäle auswählen, die Ihren Anforderungen entsprechen.

Eine Anleitung zum Konfigurieren von Benachrichtigungskanälen finden Sie unter Benachrichtigungskanäle verwalten.