Transparente Service Level Indicators (SLIs)

Google Cloud-Dienste und ihre Auswirkungen auf Arbeitslasten überwachen

stackdriver-sre-hero-banner

Moderne IT basiert auf Zahlen

Die meisten operativen IT-Teams streben heute einen umfassenden, durch Messwerte gesteuerten Ansatz an. Viele Unternehmen bewerten mittlerweile die IT anhand der Zuverlässigkeit und Leistung der bereitgestellten Dienste. Für IT-Teams, die mit externen Cloud-Diensten arbeiten, kann es jedoch schwierig sein, aussagekräftige Daten von externen Anbietern zu erhalten. Wo liegt die Ursache eines Problems? Sind es die eigenen Ressourcen oder der Dienstanbieter? Transparente SLIs erleichtern Ihnen die Überwachung von Google Cloud-Diensten und deren Auswirkungen auf Ihre Arbeitslasten. Sie erhalten so einen vollständigen Überblick.

measure-all-the-things

Alle Aspekte messen

Damit für die IT die Leistung aller Ihrer Dienstkomponenten transparent ist, bietet Google für über 130 Google Cloud-Dienste detaillierte API-Messwerte. Diese Messwerte geben Ihnen Auskunft über die Fehleranzahl und die Latenz Ihrer Anwendungsanfragen bei jedem der genutzten Google-Dienste. Dadurch erhalten Sie einen Einblick in die Korrelationen, die Interaktion und eventuelle Nebenwirkungen, die zwischen Ihren Anwendungen und den Diensten auftreten, von denen die Anwendungen abhängen. Dies beschleunigt die Ursachenanalyse und die Lösung.

real-transparency

Echte Transparenz

SLIs geben Einblicke, die weit über den herkömmlichen "Dienststatus" hinausgehen. Sie können mit ihrer Hilfe die einzelnen Interaktionen zwischen Diensten erkennen und mit Umgebungsdaten korrelieren. So können Sie Dienstmesswerte nach verschiedenen Attributen durchsuchen, zum Beispiel nach dem Standort des Dienstes, den Anmeldedaten der Anwendung, die den Dienst aufruft, oder nach der Version und dem Antwortcode. Das hilft Ihnen, Zusammenhänge zu erkennen und Ursache-Wirkung-Beziehungen festzustellen.

Typische Praxisfälle bei transparenten SLIs

  • Wenn sämtliche Aufrufe eines Dienstes durch einen bestimmten Nutzer fehlschlagen, bei allen anderen Nutzern jedoch erfolgreich sind, stimmt wahrscheinlich mit dem Konto etwas nicht. Dieses Problem können Sie leicht selbst lösen.
  • Wenn Sie ein Problem mit Ihrer Anwendung haben und feststellen, dass der Leistungsrückgang mit einer anhaltend erhöhten Latenz eines wichtigen Google Cloud-Dienstes in Verbindung steht, wenden Sie sich bitte an uns.
  • Wenn laut dem Bericht eines Google Cloud-Dienstes die Latenz gleichbleibend gut ist, Messwerte Ihrer Anwendung jedoch auf eine ungewöhnlich hohe Latenz bei Aufrufen des Dienstes hinweisen, liegt möglicherweise ein Netzwerkproblem vor. Wenden Sie sich an Ihren Netzwerkanbieter (in einigen Fällen Google), damit dieser den Fehler behebt.

Wir legen Wert auf Transparenz

Wir bei Google Cloud möchten detaillierte Leistungsinformationen zu unseren Diensten liefern. Dies ist mit den von Google SREs verwendeten Daten vergleichbar, mit denen unsere Dienste aufrechterhalten werden. Mit den von uns weitergegebenen Daten können Sie unsere Leistung unkompliziert im Blick behalten. Dadurch dass wir gemeinsam an einem Serviceticket arbeiten, sind alle auf demselben Stand. Wir glauben, dass sich durch transparente SLIs Ihr technischer Support verbessert und dass Ihr Vertrauen in das Cloud-Computing wächst.

Logo: Google Cloud

Los gehts

Wenn Sie transparente Dienstmesswerte erfassen und untersuchen möchten, rufen Sie in Cloud Monitoring Metrics Explorer auf und wählen Sie als Ressourcentyp "Consumed API" aus. Sie sehen dann eine Liste mit Messwerten für die von Ihrer Anwendung verwendeten Produkte und Dienste, die Sie grafisch darstellen können. Wählen Sie darin die für Ihre Umgebung aussagekräftigsten Messwerte aus. Sie können die angezeigten Daten auch eingrenzen. Geben Sie hierfür den Dienst, die Methode, den Standort, die Anmeldedaten oder den Fehlercode an, den bzw. die Sie verfolgen möchten.

Nachdem Sie die für Ihre Anwendung wichtigsten Messwerte ausgewählt haben, sollten Sie benutzerdefinierte Dashboards erstellen, um Ihre Schlüsselindikatoren zusammen mit unseren darzustellen. Auf diese Weise haben Sie sämtliche Indikatoren im Blick und können bei Problemen die zugrunde liegende allgemeine Ursache erkennen. Wenn Sie schließlich einen fundierten Einblick in das langfristige Verhalten von Google-Diensten bei Zugriffen und die Toleranz Ihrer Anwendung haben, können Sie festlegen, dass Sie bei Abweichungen vom langfristigen Verhalten benachrichtigt werden.

Los gehts