Komponenten von Service Level Objectives

In diesem Dokument des Google Cloud-Architektur-Frameworks werden die Schlüsselkonzepte definiert, die zum Verständnis und Erstellen von Service Level Objectives (SLOs) erforderlich sind.

SLOs spiegeln im Kern die Zuverlässigkeitsziele des Dienstes wider, den Sie Ihren Nutzern bereitstellen. Bei der Definition dieser Ziele ist es wichtig, die Beiträge aller kritischen Beteiligten einzubeziehen. Viele verschiedene Gruppen und Verwaltungsebenen haben ein starkes Interesse an Ihrem Dienst. Dazu gehören Geschäftsinhaber, Produktinhaber, Führungskräfte, Entwickler, Supportmitarbeiter, Operations, Vertrieb und andere Teams, die mit Ihrem Dienst in Verbindung stehen.

Es gibt so viele Möglichkeiten, Stakeholder-Feedback zu erhalten, wie verschiedene Zuverlässigkeitsziele wählen können. Wie Sie Ihre Ziele letztendlich auswählen, hängt von Ihnen und Ihrer Organisation anhand von Anforderungen, Stakeholdern und anderen Faktoren ab. Obwohl dieser Prozess in diesem Leitfaden nicht behandelt wird, besteht ein einfacher Ansatz darin, ein freigegebenes Dokument zu erstellen, das Ihre SLOs und wie Sie sie entwickelt haben beschreibt. Ihr Team kann dieses Dokument im Laufe der Implementierung iterieren und die SLOs im Laufe der Zeit weiter verbessern.

In den folgenden Abschnitten werden die verschiedenen Komponenten von SLOs definiert.

Service-Level

Ein Service Level ist ein Maß dafür, wie gut ein Dienst die erwartete Arbeit für den Nutzer erbringt. Dieser Messwert kann im Hinblick auf die Zufriedenheit der Nutzer beschrieben und mit verschiedenen Methoden gemessen werden, die von den einzigartigen Eigenschaften des Dienstes, seiner Nutzerbasis und den Erwartungen der Nutzer abhängen. In diesem Leitfaden verknüpfen wir die Leistung mit der Zuverlässigkeit des Systems.

Beispiel-Service-Level: Unsere Nutzer erwarten, dass der Dienst schnell und verfügbar ist.

Service Level Indicator

Ein Service Level Indicator (SLI) ist ein Maß für die Zufriedenheit der Nutzer, das quantitativ gemessen werden kann. Ein Indikator ähnelt einer Linie in einem Diagramm, die sich im Laufe der Zeit ändert, wenn sich der Dienst verbessert oder verschlechtert. Wählen Sie zur Bewertung eines Service-Levels einen Indikator aus, der einen bestimmten Aspekt der Nutzerzufriedenheit darstellt. Verfügbarkeit ist ein gängiger SLI.

Beispiel-SLI: Die Anzahl der erfolgreichen Anfragen in den letzten zehn Minuten geteilt durch die Anzahl aller gültigen Anfragen im selben Zeitraum.

Der SLI in diesem Beispiel ist spezifisch und klar definiert und wird als numerischer Wert ausgedrückt. Dieser Wert gibt an, wie verfügbar der Dienst ist. Durch konsistentes Tracking dieses SLI im Zeitablauf kann ein Team die Gesamtverfügbarkeit des Dienstes ermitteln.

Weitere Informationen zur Auswahl Ihrer SLIs finden Sie unter SLIs auswählen.

Service Level Objective

Das Service Level Objective (SLO) ist der Zielbereich, den der Dienst gemäß dem SLI erreichen soll. Im folgenden Beispiel wird die Antwortzeit bzw. die Dienstgeschwindigkeit als SLI verwendet.

Beispiel-SLO: Die Antwort des Dienstes ist bei 95% aller gültigen Anfragen über 14 Tage schneller als 400 Millisekunden (ms).

Im Beispiel-SLO ist der SLI die Anzahl der Anfragen schneller als 400 ms, geteilt durch die Anzahl der gültigen Anfragen. Dieser Prozentsatz wird über 14 Tage verfolgt. Das Ziel ist, 95% aller Anfragen zu erfüllen. Wenn also das Endergebnis (der Prozentsatz der Anfragen, die die Kriterien erfüllen) mehr als 95 % beträgt, haben Sie Ihr SLO für den Dienst erfüllt.

Kurz gesagt: Der SLI ist eine Messung (z. B. Geschwindigkeit, Verfügbarkeit und Erfolg) Ihres Dienstes. Das SLO ist die Erwartung, dass eine bestimmte Anzahl dieser Messungen (der Prozentsatz) einem vordefinierten Level oder Bereich entspricht oder diesen übersteigt. Alles, was unter dem erwarteten Niveau liegt, ist nicht gut. Sie haben Ihren Nutzern keinen zuverlässigen Dienst in einem bestimmten Leistungsbereich bereitgestellt.

Weitere Informationen zur Auswahl der SLOs finden Sie unter SLOs auswählen.

Service Level Agreement

Das Service Level Agreement (SLA) ist der Vertrag zwischen Ihnen, dem Dienstanbieter und Ihren Kunden. Es enthält die SLOs, die den Kunden versprochen und letztendlich erwartet werden. Das SLA gibt außerdem an, was geschieht, wenn ein SLO nicht erreicht wird. Ein fehlerhaftes SLO kann dazu führen, dass der Dienstanbieter Geld erstattet, ermäßigte Dienste bereitstellt oder kritischere Dienste ausführt, die zu rechtlichen Schritten oder Schadenersatz führen können.

SLAs werden in diesem Leitfaden nicht ausführlich behandelt. SLAs werden erwähnt, um Ihr Verständnis von SLO, SLI und des Nutzers zu erweitern.

Fehlerbudget

Der endgültige Wert für die Diskussion von SLOs ist der Prozentsatz oder die Anzahl der negativen Ereignisse, die Ihr Dienst standhalten kann, bevor er gegen das SLO verstößt. Diese Zahl, die als Fehlerbudget bezeichnet wird, definiert den Umfang der Fehler, die Ihr Unternehmen erwarten und ertragen kann.

Verwenden Sie zur Veranschaulichung die Verfügbarkeit als SLI (dargestellt durch einen Prozentsatz). Drei oder mehr Neunen im Prozentsatz geben die Genauigkeit an, mit der Sie diesen SLI messen möchten. Mit anderen Worten: Die Anzahl der "9er" gibt den Verfügbarkeitsprozentsatz an.

Ein SLO von drei Neunen beträgt 99,9%. Wenn der SLO-Wert von 100 % abgezogen wird, ergibt sich ein Fehlerbudget von 0,1 %. Zum Thema der Verfügbarkeit beträgt ein Budget von 0,1% etwas weniger als neun Stunden pro Jahr, in denen der Dienst nicht verfügbar ist. Weitere neun hinzufügen, reduziert das Fehlerbudget drastisch. Eine Verfügbarkeit von 99,99% (vier Neunen) ermöglicht weniger als eine Stunde Dienstausfallzeit pro Jahr.

Diese Ausfallzeiten umfassen fehlgeschlagene Anfragen, fehlerhafte Serverausfälle (Absturz oder Softwarefehler) oder Design (Upgrades oder Tests), menschliche Fehler, Unfälle und viele andere.

Nächste Schritte