Vorfälle mit Labels versehen

In diesem Dokument wird beschrieben, wie Sie Ihre Vorfälle indem Sie ihnen benutzerdefinierte Labels zuweisen. Diese Labels werden in Benachrichtigungsrichtlinien konfiguriert und in Benachrichtigungsrichtlinien und Vorfällen aufgeführt. Abhängig von Ihrer Konfiguration sind die Labels auch Benachrichtigungen angezeigt.

Über Labels

Labels sind Schlüssel/Wert-Paare, mit denen Sie Informationen an eine Zeitreihe, eine Benachrichtigungsrichtlinie, einen Vorfall oder eine Benachrichtigung anhängen können. Die Beschriftungen einer Zeitreihe könnten z. B. die spezifische VM-Instanz, aus der Daten erfasst wurden. Labels sind entweder benutzerdefiniert oder vordefiniert.

Benutzerdefinierte Labels

Benutzerdefinierte Labels enthalten von Ihnen angegebene Informationen. Diese Labels können entweder statische oder dynamische Werte haben:

Labelschlüssel müssen mit einem Kleinbuchstaben beginnen. Sowohl Labelschlüssel als auch Label -Werte dürfen nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche.

Vordefinierte Labels

Vordefinierte Labels sind in Ressourcendeskriptoren enthalten. müssen diese Labels die beim Schreiben von Zeitreihendaten ausgefüllt wird. Diese Labels enthalten Informationen zum erfassten Messwert oder zur Ressource, auf die der Messwert angewendet wird. Die Labels in einer Zeitreihe können beispielsweise eine virtuelle Maschine (VM), eine Zone, ein Google Cloud-Projekt und einen Gerätetyp identifizieren. Wenn in Monitoring ein Vorfall auf Grundlage dieser Zeitreihe erstellt wird, werden diese Labels übernommen.

Labels aufrufen

Sie können die Labels einer Benachrichtigungsrichtlinie oder eines Vorfalls ansehen auf der Detailseite eines Vorfalls auf der Detailseite einer Benachrichtigungsrichtlinie und in einigen Benachrichtigungen.

  • Richtlinien für Benachrichtigungen: Statische benutzerdefinierte Labels sind im Abschnitt Nutzerlabels aufgeführt. Dynamische benutzerdefinierte Labels und vordefinierte Labels sind nicht sichtbar.
  • Vorfälle: Statische benutzerdefinierte Labels sind im Abschnitt Richtlinien-Labels und dynamische benutzerdefinierte Labels im Abschnitt Messwertlabels aufgeführt. Vordefinierte Labels sind unter Labels für überwachte Ressourcen aufgeführt und Messwertlabels.
  • Benachrichtigungen: Vordefinierte und benutzerdefinierte Labels werden aufgelistet in den folgenden Benachrichtigungstypen:

    • E-Mail
    • Google Chat
    • Logo: PagerDuty
    • Pub/Sub
    • Webhook

Beispiel: Benutzerdefinierte Labels mit dynamischen Werten hinzufügen

Mit MQL können Sie ein Label so konfigurieren, dass sein Wert ändert sich basierend auf Zeitreihendaten dynamisch. Zum Beispiel möchten Sie um ein criticality-Label zu erhalten, dessen Wert sich ändert, abhängig vom Wert des überwachten CPU-Auslastungsmesswerts:

fetch gce_instance
| metric 'compute.googleapis.com/instance/cpu/utilization'
| group_by sliding(5m), [value_utilization_mean: mean(value.utilization)]
| map
    add[
      criticality:
        if(val() >= 90 '%', 'CRITICAL',
          if(val() >= 80 '%', 'WARNING',
            if(val() >= 70 '%', 'INFO', 'GOOD')))
    ]
| condition val() >= 70 '%'

Die folgende Abbildung veranschaulicht, wie Benachrichtigungsrichtlinien, die MQL-Abfragen verwenden, die überwachten Zeitreihendaten verarbeiten:

Abbildung, die zeigt, wie Benachrichtigungsrichtlinien die überwachten Zeitreihen verarbeiten

Der Richtlinien-Handler verarbeitet die CPU-Auslastungsdaten und gibt eine Zeitreihe aus, die angibt, wann die Bedingung erfüllt ist. Im vorherigen Beispiel ist die Bedingung erfüllt, wenn die CPU-Auslastung mindestens 70 % beträgt. Der Richtlinien-Handler kann für jede Eingabezeitachse Generieren Sie eine von vier Zeitreihen:

Name der Ausgabezeitreihe Bedingung erfüllt Beschreibung
GUT Nein Diese Zeitreihe hat dieselben Labels wie die Eingabezeitachse. Sie hat kein Label für den Schweregrad.
"KRITISCH" Ja Die CPU-Auslastung beträgt mindestens 90 %. Die Ausgabezeitachse hat dieselben Labels wie die „GUT“-Zeitreihe und ein Schweregradlabel mit dem Wert „KRITISCH“.
„WARNUNG“ Ja Die CPU-Auslastung beträgt mindestens 80 %, aber weniger als 90 %. Die Ausgabezeitachse hat dieselben Labels wie die Zeitachse „GUT“ sowie ein Schweregradlabel mit dem Wert „WARNUNG“.
„INFO“ Ja Die CPU-Auslastung beträgt mindestens 70 %, aber weniger als 80 %. Die Ausgabezeitachse hat dieselben Labels wie die Zeitachse „GUT“ sowie ein Schweregradlabel mit dem Wert „INFO“.

Die vom Richtlinien-Handler generierten Zeitreihendaten sind die Eingabe für den Incident Manager, mit dem festgelegt wird, wann Vorfälle erstellt und geschlossen werden. Um zu bestimmen, wann ein Vorfall geschlossen werden muss, verwendet der Vorfallmanager das duration-, evaluationMissingData- und und autoClose.

Best Practices

Wenn Sie Labels erstellen, deren Werte dynamisch festgelegt werden, ist es möglich, dass mehrere Supportanfragen gleichzeitig geöffnet werden. Um dies zu vermeiden, gehen Sie so vor:

  • Überschreiben Sie im Objekt MetricThreshold die Standardwerte für die folgenden Felder:

    • Feld duration: auf einen Wert ungleich null gesetzt.
    • evaluationMissingData-Feld: Legen Sie fest, dass Vorfälle geschlossen werden, wenn keine Daten mehr eingehen. Wenn Sie die Cloud Monitoring API verwenden, Legen Sie dieses Feld auf EVALUATION_MISSING_DATA_INACTIVE fest. Wenn Sie in der Google Cloud Console das Feld auf „Fehlende Datenpunkte werden als Werte behandelt die nicht gegen die Richtlinienbedingung verstoßen.“
  • Legen Sie im AlertStrategy-Objekt autoClose fest. auf den Mindestwert von 30 Minuten. Wenn Sie die Cloud Monitoring API verwenden, legen Sie für dieses Feld den Wert 30m fest.

Weitere Informationen finden Sie unter Teilweise Messwertdaten.

Ablauf eines Vorfalls

Angenommen, die Messungen der CPU-Auslastung liegen beim Erstellen der Benachrichtigungsrichtlinie unter 70 %. Die folgende Abfolge veranschaulicht, wie Vorfälle geöffnet und geschlossen werden:

  1. Da die CPU-Auslastungsmessungen weniger als 70 % betragen, Policy-Handler generiert die Zeitreihen und werden keine Vorfälle geöffnet.

  2. Nehmen wir als Nächstes an, dass die CPU-Auslastung auf 93 % ansteigt. Der Richtlinien-Handler hört auf, die Zeitreihendaten vom Typ „GÜLTIG“ zu generieren, und generiert stattdessen Daten für die Zeitreihe vom Typ „KRITISCH“.

    Der Vorfallmanager sieht eine neue Zeitreihe vom Typ „KRITISCH“, die die Bedingung erfüllt, und öffnet einen Vorfall. Die Benachrichtigung enthält das Label „Schwere“ mit dem Wert CRITICAL.

  3. Angenommen, die CPU-Auslastung sinkt auf 75%. Richtlinien-Handler stoppt die Ausgabe von „KRITISCHES“ und beginnt, „INFO“ zu generieren Zeitreihe.

    Der Vorfallmanager sieht eine neue die mit der und erstellt dann einen Vorfall. Die Benachrichtigung enthält das Label „Schwere“ mit dem Wert INFO.

    Der Vorfallmanager stellt fest, dass keine Daten für die und dass ein Vorfall für diese Zeitreihe offen ist. Da die so konfiguriert, dass Vorfälle geschlossen werden, wenn keine Daten eingehen, schließt der Vorfallmanager im Zusammenhang mit der Zeitreihe. Dementsprechend wird bleibt nur der Vorfall offen, dessen Schweregradlabel den Wert INFO hat.

  4. Nehmen wir an, dass die CPU-Auslastung auf 45 % sinkt. Dieser Wert ist kleiner als alle Grenzwerte, sodass der Richtlinien-Handler aufhört, die „INFO“ und beginnt, den Status „GUT“ zu generieren Zeitreihe.

    Der Vorfallmanager sieht, dass keine Daten für die „INFO“-Anfrage eintreffen. und dass ein Vorfall für diese Zeitreihe offen ist. Da die die empfohlenen Einstellungen verwendet, wird der Vorfall geschlossen.

Wenn Sie den empfohlenen Wert für das Feld evaluationMissingData nicht verwenden, werden offene Vorfälle nicht sofort geschlossen, wenn keine Daten mehr eingehen. Das kann dazu führen, dass Sie mehrere offene Vorfälle für dieselbe Eingabe sehen. Zeitreihe. Weitere Informationen finden Sie unter Teilmesswertdaten.

Nächste Schritte