Transparente Service Level Indicators (SLIs) für Stackdriver

Google Cloud-Dienste und ihre Auswirkungen auf Arbeitslasten überwachen

stackdriver-sre-hero-banner

Moderne IT basiert auf Zahlen

Die meisten operativen IT-Teams streben heute einen umfassenden, durch Kennzahlen gesteuerten Ansatz an. Viele Unternehmen bewerten mittlerweile die IT anhand der Zuverlässigkeit und Leistung der bereitgestellten Dienste. Für IT-Teams, die mit externen Clouddiensten arbeiten, kann es jedoch schwierig sein, aussagekräftige Daten von externen Anbietern zu erhalten. Wo liegt die Ursache eines Problems? Sind es die eigenen Ressourcen oder der Dienstanbieter? Transparente SLIs erleichtern Ihnen die Überwachung von Google Cloud-Diensten und deren Auswirkungen auf Ihre Arbeitslasten. Sie erhalten so einen vollständigen Überblick.

measure-all-the-things

Alle Aspekte messen

Damit für die IT die Leistung aller Ihrer Dienstkomponenten transparent ist, bietet Google für über 130 Google Cloud-Dienste detaillierte API-Messwerte. Diese Messwerte geben Ihnen Auskunft über die Fehleranzahl und die Latenz Ihrer Anwendungsanfragen bei jedem der genutzten Google-Dienste. Dadurch erhalten Sie einen Einblick in die Korrelationen, die Interaktion und eventuelle Nebenwirkungen, die zwischen Ihren Anwendungen und den Diensten auftreten, von denen die Anwendungen abhängen. Dies beschleunigt die Ursachenanalyse und die Lösung.

real-transparency

Echte Transparenz

SLIs geben Einblicke, die weit über den herkömmlichen "Dienststatus" hinausgehen. Sie können mit ihrer Hilfe die spezifischen Interaktionen zwischen Diensten erkennen und mit Umgebungsdaten korrelieren. Dies ermöglicht Ihnen, Dienstmesswerte nach verschiedenen Attributen zu durchsuchen, wie etwa dem Standort des Dienstes, den Anmeldedaten der Anwendung, die den Dienst aufruft, sowie der Version und dem Antwortcode, wodurch Sie Zusammenhänge erkennen und Ursache-Wirkungs-Beziehungen feststellen können.

Typische Praxisfälle bei transparenten SLIs

  • Wenn sämtliche Aufrufe eines Dienstes durch einen bestimmten Nutzer fehlschlagen, bei allen anderen Nutzern jedoch erfolgreich sind, stimmt wahrscheinlich mit dem Konto etwas nicht. Dieses Problem können Sie leicht selbst lösen.
  • Wenn Sie bei der Fehleruntersuchung in Ihrer Anwendung bemerken, dass deren reduzierte Leistung mit einem anhaltenden Anstieg der Latenz für einen kritischen GCP-Dienst korreliert, sollten Sie bei uns Hilfe anfordern.
  • Wenn die Latenzen für einen GCP-Dienstbericht konstant gut aussehen, jedoch die anwendungsinternen Messwerte bei Aufrufen des Dienstes auf eine ungewöhnlich hohe Latenz hindeuten, kann es sich um einen Netzwerkfehler handeln. Wenden Sie sich an Ihren Netzwerkanbieter (in einigen Fällen Google), damit dieser den Fehler behebt.

Wir legen Wert auf Transparenz

Wir bei Google Cloud möchten detaillierte Leistungsinformationen zu unseren Diensten liefern. Dies ist mit den von Google SREs verwendeten Daten vergleichbar, mit denen unsere Dienste aufrechterhalten werden. Mithilfe der von uns weitergegebenen Daten können Sie unsere Leistung unkompliziert überwachen. Dadurch, dass wir gemeinsam an einem Serviceticket arbeiten, sind alle auf demselben Stand. Wir glauben, dass sich durch transparente SLIs Ihr technischer Support verbessert und Ihr Vertrauen in Cloud Computing wächst.

Google Cloud

Nächste Schritte

Wenn Sie transparente Dienstmesswerte erfassen und erkunden möchten, rufen Sie Stackdriver Metrics Explorer auf und wählen als Ressourcentyp "Consumed API" aus. Sie sehen eine Liste mit Messwerten, die Sie in Bezug auf die von Ihrer Anwendung verwendeten Produkte und Dienste grafisch darstellen können. Anschließend wählen Sie die für Ihre Umgebung aussagekräftigsten Messwerte aus. Grenzen Sie die Auswahl der angezeigten Daten ein. Geben Sie hierfür den Dienst, die Methode, den Standort, die Anmeldedaten oder den Fehlercode an, den bzw. die Sie überwachen möchten.

Nachdem Sie die für Ihre Anwendung wichtigsten Messwerte ausgewählt haben, sollten Sie benutzerdefinierte Dashboards erstellen, um Ihre Schlüsselindikatoren zusammen mit unseren darzustellen. Auf diese Weise haben Sie sämtliche Indikatoren im Blick und können bei Problemen die zugrunde liegende allgemeine Ursache erkennen. Wenn Sie nach einiger Zeit einen guten Eindruck vom langfristigen Normalverhalten der Google-Dienste in Bezug auf Ihren Traffic sowie von der Toleranz Ihrer jeweiligen App haben, können Sie Benachrichtigungen einrichten, die Sie jeweils bei Abweichungen vom langfristigen Verhalten bekommen.

Jetzt starten