Transparente Service Level Indicators (SLIs) für Stackdriver

Google Cloud-Dienste und ihre Auswirkungen auf Arbeitslasten überwachen

stackdriver-sre-hero-banner

Moderne IT basiert auf Zahlen

Die meisten operativen IT-Teams streben heute einen umfassenden, messwertgesteuerten Ansatz an. Viele Unternehmen bewerten die IT anhand der Zuverlässigkeit und Leistung von Diensten. Für IT-Teams, die mit externen Clouddiensten arbeiten, kann es jedoch schwierig sein, aussagekräftige Daten von externen Anbietern zu erhalten. Wo liegt die Ursache eines Problems? Sind es Ihre Ressourcen oder der Dienstanbieter? Transparente SLIs erleichtern Ihnen die Überwachung von Google Cloud-Diensten und deren Auswirkungen auf Ihre Arbeitslasten. Sie erhalten dadurch einen vollständigen Überblick.

measure-all-the-things

Alle Aspekte messen

Damit die IT die Leistung aller Ihrer Dienstkomponenten versteht, bietet Google für über 130 Google Cloud-Dienste detaillierte API-Messwerte. Diese Messwerte geben die Fehleranzahl und die Latenz der Anfragen Ihrer Anwendungen bei jedem Google-Dienst an. Sie erhalten dadurch einen Einblick in die Korrelationen und Nebenwirkungen zwischen Ihren Anwendungen und den Diensten, von denen sie abhängig sind. Dies beschleunigt die Ursachenanalyse und die Lösung.

real-transparency

Echte Transparenz

SLIs gehen weit über den herkömmlichen "Dienststatus" hinaus. Sie können die spezifischen Interaktionen zwischen Diensten sehen und mit Umgebungsdaten korrelieren. Dies ermöglicht Ihnen, Dienstmesswerte nach verschiedenen Attributen zu durchsuchen, wie etwa dem Standort des Dienstes, den Anmeldedaten der Anwendung, die den Dienst aufruft, sowie die Version und den Antwortcode, womit Sie Beziehungen untersuchen und Ursachen und Auswirkungen ermitteln können.

Transparente SLIs verwenden

  • Wenn sämtliche Aufrufe eines Dienstes durch einen bestimmten Nutzer fehlschlagen, bei allen anderen Nutzern jedoch erfolgreich sind, stimmt wahrscheinlich mit dem Konto etwas nicht. Dieses können Sie leicht selbst lösen.
  • Wenn Sie bei der Behebung eines Fehlers in Ihrer Anwendung bemerken, dass deren reduzierte Leistung mit einem anhaltenden Anstieg der Latenz für einen kritischen GCP-Dienst korreliert, sollten Sie sich an uns wenden.
  • Wenn die Latenzen für einen GCP-Dienstbericht konstant gut aussehen, aber Ihre anwendungsinternen Messwerte bei Aufrufen des Dienstes auf eine ungewöhnlich hohe Latenz hindeuten, kann es sich um einen Netzwerkfehler handeln. Wenden Sie sich an Ihren Netzwerkanbieter (in einigen Fällen ist das Google), damit dieser den Fehler behebt.




Transparenz ist uns wichtig

Bei Google Cloud möchten wir detaillierte Leistungsinformationen zu unseren Diensten liefern. Dies ist mit den von Google SREs verwendeten Daten vergleichbar, mit denen unsere Dienste aufrechterhalten werden. Mit diesen gemeinsam genutzten Daten können Sie unsere Leistung einfach überwachen. Wenn wir gemeinsam an einem Serviceticket arbeiten, sind somit alle auf demselben Stand. Wir glauben, dass sich durch transparente SLIs Ihr technischer Support verbessert und Ihr Vertrauen in Cloud Computing steigt.

Google Cloud

Jetzt starten

Wenn Sie transparente Dienstmesswerte erfassen und erkunden möchten, rufen Sie Stackdriver Metrics Explorer auf und wählen als Ressourcentyp "Consumed API" aus. Sie sehen eine Liste mit Messwerten, die Sie basierend auf den in Ihrer Anwendung verwendeten Produkten und Diensten grafisch darstellen können. Anschließend können Sie die für Ihre Umgebung aussagekräftigsten Messwerte auswählen. Schränken Sie die angezeigten Daten ein. Geben Sie hierfür den Dienst, die Methode, den Standort, die Anmeldedaten oder den Fehlercode an, den bzw. die Sie überwachen möchten.

Nachdem Sie die für Ihre Anwendung wichtigsten Messwerte ausgewählt haben, sollten Sie benutzerdefinierte Dashboards erstellen, um Ihre Schlüsselindikatoren mit unseren darzustellen. Auf diese Weise erhalten Sie den erforderlichen Überblick über die allgemeine Ursache eines Problems. Wenn Sie schließlich einen fundierten Einblick in das langfristige Verhalten von Google-Diensten bei Zugriffen und die Toleranz Ihrer Anwendung haben, können Sie festlegen, dass Sie bei Abweichungen vom langfristigen Verhalten benachrichtigt werden.

Jetzt starten