Konzepte im Dienst-Monitoring

Dienst-Monitoring und die SLO API unterstützen Sie bei der Verwaltung Ihrer Dienste, so wie Google seine eigenen Dienste verwaltet. Zu den Kernideen des Dienst-Monitoring gehören:

Das Auswählen von Messwerten, die als Service Level Indicators (SLIs) dienen.
Die Verwendung der SLIs zum Festlegen von Service Level Objectives (SLOs) für die SLI-Werte.
Der Einsatz des durch das SLO implizierten Fehlerbudgets, um das Risiko in Ihrem Dienst zu minimieren.

Auf dieser Seite werden diese Konzepte vorgestellt und einige der Punkte beschrieben, die beim Entwerfen eines SLO zu berücksichtigen sind. Auf den anderen Seiten in diesem Abschnitt werden diese Konzepte umgesetzt:

Terminologie

Das Dienst-Monitoring umfasst eine Reihe von Kernkonzepten, die hier vorgestellt werden:

Service Level Indicator (SLI): ein Messwert für die Leistung.
Service Level Objective (SLO): eine Aussage über die gewünschte Leistung.
Fehlerbudget: beginnt bei 1 – SLO und nimmt ab, wenn die tatsächliche Leistung das SLO nicht erreicht.

Service Level Indicators

Cloud Monitoring erfasst Messwerte, mit denen die Leistung der Dienstinfrastruktur gemessen wird. Beispiele für Leistungsmesswerte sind unter anderem:

Anzahl der Anfragen: beispielsweise die Anzahl der HTTP-Anfragen pro Minute, die zu 2xx- oder 5xx-Antworten führen.
Antwortlatenzen: z. B. die Latenz für HTTP-2xx-Antworten.

Die Leistungsmesswerte werden automatisch anhand einer Reihe bekannter Diensttypen ermittelt: Anthos Service Mesh, Istio in Google Kubernetes Engine und App Engine. Sie können auch einen eigenen Diensttyp definieren und Leistungsmesswerte dafür auswählen.

Die Leistungsmesswerte sind die Grundlage der SLIs für Ihren Dienst. Ein SLI beschreibt die Leistung einiger Aspekte Ihres Dienstes. Für Dienste in Anthos Service Mesh, Istio in Google Kubernetes Engine und App Engine sind bereits hilfreiche SLIs vorhanden. Wenn Ihr Dienst beispielsweise Messwerte für die Anzahl der Anfragen oder die Antwortlatenzen hat, können aus diesen Messwerten standardmäßige Service Level Indicators (SLIs) abgeleitet werden. So werden hierfür Verhältnisse erstellt:

Ein SLI für die Verfügbarkeit ist das Verhältnis der Anzahl erfolgreicher Antworten zur Anzahl aller Antworten.
Eine SLI für die Latenz ist das Verhältnis der Anzahl an Aufrufen unterhalb eines Latenzschwellenwerts zur Anzahl aller Aufrufe.

Sie können auch dienstspezifische SLIs für ein anderes Maß festlegen, das angibt, was "fehlerfreie Leistung" bedeutet. Diese SLIs lassen sich im Allgemeinen in zwei Kategorien einteilen:

Anfragebasierte SLIs, bei denen ein fehlerfreier Dienst durch das Zählen atomarer Diensteinheiten gemessen wird, wie die Anzahl der erfolgreichen HTTP-Anfragen.
Zeitfensterbasierte SLIs, bei denen ein fehlerfreier Dienst anhand der Anzahl der Zeiträume oder Zeitfenster gemessen wird, in denen die Leistung ein Qualitätskriterium erfüllt, wie eine Antwortlatenz unter einem bestimmten Schwellenwert.

Diese SLIs werden in Compliance in anfrage- und zeitfensterbasierten SLOs ausführlich beschrieben.

Beispiele zum Erstellen von SLIs für ausgewählte Dienste finden Sie unter SLIs aus Messwerten erstellen.

Service Level Objectives

Ein SLO ist ein Zielwert für einen SLI, gemessen über einen gewissen Zeitraum. Der Dienst bestimmt die verfügbaren SLIs und Sie legen SLOs basierend auf den SLIs fest. Durch das SLO wird definiert, was als fehlerfreier Dienst gilt. Sie können für jeden Dienst in Cloud Monitoring bis zu 500 SLOs erstellen.

Ein SLO beruht auf den folgenden Arten von Informationen:

Ein SLI, mit dem die Leistung des Dienstes gemessen wird.
Ein Leistungsziel, das für das gewünschte Leistungsniveau steht.
Ein Zeitraum, auch Compliancezeitraum genannt, mit dem der SLI im Vergleich zum Leistungsziel gemessen wird.

Beispiel: Es gelten die folgenden Voraussetzungen:

Die Latenz darf über einen rollierenden Zeitraum von 30 Tagen nur bei 5 % der Anfragen eine Latenz von 300 ms überschreiten.
Das System muss über eine Kalenderwoche eine Verfügbarkeit von 99 % haben.

Voraussetzungen wie diese können die Grundlage für SLOs bilden. Hinweise zum Festlegen bewährter SLOs finden Sie unter SLOs entwerfen und verwenden.

Änderungen an der SLO-Compliance können auch auf das erstmalige Auftreten von Fehlern hindeuten. Wenn Sie diese Änderungen im Blick behalten, bieten sich möglicherweise genügend Warnhinweise, um ein Problem zu beheben, bevor es zu einer Kaskadierung kommt. Daher werden in der Regel Benachrichtigungsrichtlinien verwendet, um die SLO-Compliance zu verfolgen. Weitere Informationen finden Sie unter Benachrichtigungen zum Fehlerbudget.

Ein hilfreiches SLO ist auf weniger als 100 % ausgerichtet, da das SLO Ihr Fehlerbudget bestimmt. SLOs werden normalerweise als "Anzahl der Neunen" bezeichnet: 99 % (2 Neunen), 99,9 % (3 Neunen) usw. Der höchste Wert, den Sie angeben können, ist 99,9 %. Sie können jedoch einen niedrigeren Wert verwenden, der für Ihren Dienst angemessen ist.

Fehlerbudgets

Ein SLO gibt an, welche Leistung ein Dienst während eines Compliancezeitraums erbringen muss. Was im Compliancezeitraum übrig bleibt, wird zum Fehlerbudget. Mit dem Fehlerbudget wird quantifiziert, in welchem Umfang ein Dienst im Compliancezeitraum eine schlechte Leistung erbringen kann und dennoch dem SLO gerecht wird.

Mithilfe von Fehlerbudgets können Sie nachvollziehen, wie viele fehlerhafte einzelne Ereignisse (z. B. Anfragen) im verbleibenden Compliancezeitraum auftreten dürfen, bevor ein Verstoß gegen das SLO vorliegt. Sie können das Fehlerbudget verwenden, um Wartungsaufgaben wie die Bereitstellung neuer Versionen zu verwalten. Wenn das Fehlerbudget fast aufgebraucht ist, können riskante Aktionen wie das Hochladen neuer Updates dazu führen, dass Sie ein SLO verletzen.

Ihr Fehlerbudget für einen Compliance-Zeitraum beträgt (1 - SLO-Ziel) × (mögliche Ereignisse im Compliance-Zeitraum). Wenn Ihr SLO beispielsweise 85% der Anfragen in einem Rolling-Zeitraum von 7 Tagen erfüllt, können 15% dieser Anfragen aufgrund Ihres Fehlerbudgets fehlerhaft sein. Wenn Sie in der letzten Woche beispielsweise 60.480 Anfragen erhalten haben, beträgt Ihr Fehlerbudget 15% dieser Gesamtzahl oder 9.072 Anfragen, die fehlerhaft sein können. Wenn Sie mehr Fehler ausgegeben haben, hat Ihr Dienst das SLO für den 7-tägigen Compliance-Zeitraum überschritten.

SLOs entwerfen und verwenden

Was macht ein gutes SLO aus? Was ist bei der Auswahl zu beachten? In diesem Abschnitt erhalten Sie einen Überblick über einige allgemeine Konzepte zum Entwerfen und Verwenden von SLOs. Dieses Thema wird unter Site Reliability Engineering: Wie Google Produktionssysteme betreibt im Kapitel zu SLOs ausführlich behandelt.

Mit SLOs wird die gewünschte Zielleistung Ihres Dienstes definiert. SLOs sollten im Allgemeinen nicht höher als notwendig oder sinnvoll sein. Wenn Ihre Nutzer den Unterschied zwischen 99 % Verfügbarkeit und 99,9 % Verfügbarkeit Ihres Dienstes nicht erkennen können, verwenden Sie den niedrigeren Wert als SLO. Die Kosten, um den höheren Wert einzuhalten, sind größer. Für die Nutzer macht es aber keinen Unterschied. Ein Dienst, der zum Erreichen eines SLO-Ziels von 100% erforderlich ist, hat kein Fehlerbudget. Die Festlegung eines solchen SLO ist nicht empfehlenswert.

SLOs sind in der Regel strenger als öffentliche oder vertragliche Zusicherungen. Ein SLO soll enger als eine öffentliche Zusicherung angesetzt sein. Wenn dann ein Verstoß gegen das SLO vorliegt, erkennen Sie das Problem und beheben es, bevor es zu einer Verletzung einer Zusicherung oder eines Vertrags kommt. Ein Verstoß gegen eine Zusicherung oder einen Vertrag kann Auswirkungen auf den Ruf, finanzielle oder rechtliche Folgen haben. Ein SLO ist Teil eines Frühwarnsystems, um dies zu verhindern.

Compliancezeiträume

Es gibt zwei Arten von Compliancezeiträumen für SLOs:

Kalenderbasierte Zeiträume (von Datum bis Datum)
Rollierende Zeiträume (von vor n Tagen bis jetzt, wobei n 1 bis 30 Tage sein kann)

Kalenderbasierte Compliancezeiträume

Compliancezeiträume können auf Kalenderzeiträume wie eine Woche oder einen Monat festgelegt werden. Der Compliancezeitraum und das Fehlerbudget werden an bekannten Kalendergrenzen zurückgesetzt. Informationen zu möglichen Werten finden Sie unter CalendarPeriod.

Bei einem Kalenderzeitraum erhalten Sie am Ende des Zeitraums eine Leistungskennzahl. Die Leistungskennzahl gibt gemessen am Leistungsschwellenwert darüber Aufschluss, ob der Dienst die Vorgaben eingehalten hat oder nicht. Wenn Sie einen Kalenderzeitraum verwenden, erhalten Sie nur einmal in jedem Compliancezeitraum eine Compliancebewertung, obwohl die Leistung während des gesamten Zeitraums erbracht wird. Mit der Punktzahl am Ende des Zeitraums haben Sie jedoch einen leicht ablesbaren Wert, der ganz einfach den Abrechnungszeiträumen Ihrer Kunden zugeordnet werden kann (sofern Sie externe zahlende Kunden haben).

Wie die Kalendermonate so variieren auch die monatlichen Compliancezeiträume in der Anzahl der Tage, für die sie gelten.

Rollierende zeitfensterbasierte Compliancezeiträume

Sie können die Compliance auch über einen rollierenden Zeitraum messen, sodass beispielsweise immer die letzten 30 Tage ausgewertet werden. Bei einem rollierenden Zeitraum werden die ältesten Daten aus der vorherigen Berechnung in der aktuellen Berechnung nicht mehr berücksichtigt und durch neue ersetzt.

Mit einem rollierenden Zeitfenster erhalten Sie mehr Compliancemessungen. Das heißt, Sie erhalten ein Compliancemaß für die letzten 30 Tage statt für einen Monat. Bei Diensten kann ein Wechsel zwischen Compliance und Nichtcompliance stattfinden, da sich der SLO-Status täglich ändert, alte Datenpunkte verworfen und neue hinzugefügt werden.

Compliance in anfrage- und zeitfensterbasierten SLOs

Die Entscheidung, ob ein SLO die Compliance erfüllt, hängt von zwei Faktoren ab:

Wie der Compliancezeitraum ermittelt wird. Dies wird unter Compliancezeiträume erläutert.
Der Typ des SLO. Es gibt zwei Arten von SLOs:
- Anfragebasierte SLOs
- Zeitfensterbasierte SLOs

Compliance ist das über den Compliancezeitraum gemessene Verhältnis der fehlerfreien Ereignisse zu den Ereignissen insgesamt. Was ein "Ereignis" ist, wird durch die Art des SLO festgelegt.

Wenn Ihr SLO bei 99,9 % liegt, muss die Compliance mindestens 99,9 % betragen, um der Vorgabe zu entsprechen. Der Maximalwert beträgt 100 %.

Anfragebasierte SLOs

Ein anfragebasiertes SLO basiert auf einem SLI, der als Verhältnis der Anzahl fehlerfreier Anfragen zur Gesamtzahl der Anfragen definiert ist. Ein anfragebasiertes SLO wird eingehalten, wenn dieses Verhältnis der Zielvorgabe für den Compliancezeitraum entspricht oder diese übersteigt.

Betrachten Sie beispielsweise dieses anfragebasierte SLO: "Die Latenz liegt für mindestens 95 % der Anfragen unter 100 ms." Eine gute Anfrage ist eine Anfrage mit einer Antwortzeit von weniger als 100 ms. Das Maß der Compliance ist also der Anteil der Anfragen mit Antwortzeiten unter 100 ms. Der Dienst ist konform, wenn dieser Bruchteil mindestens 0,95 beträgt.

Mit anfragebasierten SLOs können Sie erkennen, zu welchem Anteil Ihr Dienst während des gesamten Compliancezeitraums seine Arbeit ordnungsgemäß ausgeführt hat, unabhängig davon, wie die Last während des Compliancezeitraums verteilt wurde.

Zeitfensterbasierte SLOs

Ein zeitfensterbasiertes SLO basiert auf einem SLI, der als Verhältnis der Anzahl von Messintervallen, die ein bestimmtes Qualitätskriterium erfüllen, zur Gesamtzahl der Intervalle definiert ist. Ein zeitfensterbasiertes SLO wird eingehalten, wenn dieses Verhältnis der Zielvorgabe für den Compliancezeitraum entspricht oder diese übersteigt.

Nehmen wir als Beispiel dieses SLO: "Der 95. Perzentil des Latenzmesswerts liegt in mindestens 99 % der 10-Minuten-Fenster bei weniger als 100 ms." Ein fehlerfreier Messzeitraum ist ein 10-Minuten-Fenster, in dem 95 % der Anfragen eine Latenz von weniger als 100 ms aufweisen. Das Maß der Compliance ist der Anteil solcher fehlerfreien Zeiträumen. Der Dienst wird den Vorgaben gerecht, wenn dieser Anteil mindestens 0,99 beträgt.

Gehen wir für ein weiteres Beispiel davon aus, dass Sie Ihren Compliancezeitraum als rollierenden Zeitraum von 30 Tagen festlegen, das Messintervall eine Minute beträgt und das SLO-Ziel mit 99 % angegeben ist. Zur Einhaltung dieses SLO muss Ihr Dienst aus 43.200 Minuten 42.768 "fehlerfreie" Intervalle aufweisen (99 % der Anzahl an Minuten in 30 Tagen).

Ein zeitfensterbasiertes SLO gibt Ihnen Aufschluss darüber, zu welchem zeitlichen Anteil der Dienst für Ihre Kunden gut oder schlecht funktioniert hat. Bei dieser Art von SLO bleiben die Auswirkungen von "stoßartigem" Verhalten möglicherweise unbemerkt: Ein Messintervall, in dem jeder Aufruf fehlgeschlagen ist, wird auf das SLO genauso angerechnet wie ein Messintervall, in dem nur ein Fehler zu viel aufgetreten ist. Intervalle mit einer niedrigen Anzahl von Aufrufen werden auf das SLO genauso angerechnet wie ein Messintervall mit starker Aktivität angerechnet.

Verlauf der Fehlerbudgets

Das Fehlerbudget ist die Differenz zwischen 100 % fehlerfreiem Dienst und Ihrem SLO, dem gewünschten Grad an fehlerfreiem Dienst. Der Unterschied zwischen ihnen ist Ihr Spielraum.

Im Allgemeinen liegt ein Fehlerbudget zu Beginn beim Höchstwert und nimmt mit der Zeit ab. Fällt das Fehlerbudget unter 0, wird ein SLO-Verstoß ausgelöst.

Allerdings gibt es einige nennenswerte Ausnahmen zu diesem Muster:

Wenn Sie ein anfragebasiertes SLO haben, bei dem die Messung über einen Compliancezeitraum wie einen Kalendermonat erfolgt, und der Dienst verzeichnet während des Compliancezeitraums erhöhte Aktivitäten, kann sich das verbleibende Fehlerbudget tatsächlich erhöhen.

Wie ist das möglich? Das SLO-System kann nicht im Voraus wissen, wie viel Aktivität der Dienst in den einzelnen Compliancezeiträumen hat, und daher einen wahrscheinlichen Wert extrapolieren. Dieser Wert ist das Verhältnis der Aufrufe bis zum aktuellen Zeitpunkt zur verstrichenen Zeit des Compliancezeitraums, multipliziert mit der Länge des Compliancezeitraums.

Steigt die Aktivitätsrate, erhöht sich auch der für diesen Zeitraum erwartete Traffic. Folglich erhöht sich auch das Fehlerbudget.
Wenn Sie ein SLO über einen rollierenden Compliancezeitraum messen, befinden Sie sich tatsächlich immer am Ende eines Compliancezeitraums. Statt bei null anzufangen werden alte Datenpunkte kontinuierlich entfernt und neue Datenpunkte kontinuierlich hinzugefügt.

Wenn ein Zeitraum mit schlechter Compliance aus dem Compliancezeitfenster fällt und der aktuelle Zeitpunkt, durch den das Fenster ersetzt wird, den Vorgaben entspricht, steigt das Fehlerbudget. Ein Fehlerbudget ≥ 0 weist zu einem beliebigen Zeitpunkt auf ein konformes rollierendes SLO-Zeitfenster hin und ein Fehlerbudget < 0 weist auf ein nicht konformes rollierendes SLO-Fenster hin.

Das Fehlerbudget überwachen

Sie können Benachrichtigungsrichtlinien erstellen, um Sie darauf hinzuweisen, dass Ihr Fehlerbudget schneller als gewünscht aufgebraucht wird. Weitere Informationen finden Sie unter Benachrichtigungen zum Fehlerbudget.

Nächste Schritte

Unter Mikrodienste werden Mikrodienste und die Verwendung der Google Cloud Console zum Konfigurieren, Aufrufen und Verwalten Ihrer Mikrodienste erläutert.
Unter Benachrichtigung über Ihre Brennrate wird beschrieben, wie Sie Ihre SLIs überwachen, damit Sie auf mögliche Probleme hingewiesen werden.
Unter Mit der SLO API arbeiten erfahren Sie, wie Sie mit der SLO API, einem Bestandteil der Cloud Monitoring API, Dienste, SLOs und zugehörige Strukturen erstellen.