Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud -Architektur-Frameworks enthält Empfehlungen, mit denen Sie proaktiv Bereiche identifizieren können, in denen Fehler und Ausfälle auftreten können.
Dieses Prinzip ist für den Fokusbereich Reliabilität relevant.
Grundsatzübersicht
Um die Zuverlässigkeit Ihrer Arbeitslasten inGoogle Cloudaufrechtzuerhalten und zu verbessern, müssen Sie eine effektive Beobachtbarkeit mithilfe von Messwerten, Protokollen und Traces implementieren.
- Messwerte sind numerische Messungen von Aktivitäten, die Sie in bestimmten Zeitintervallen für Ihre Anwendung erfassen möchten. Sie können beispielsweise technische Messwerte wie die Anfragerate und die Fehlerrate erfassen, die als Service Level Indicators (SLIs) verwendet werden können. Möglicherweise müssen Sie auch anwendungsspezifische Geschäftsmesswerte wie aufgegebene Bestellungen und eingegangene Zahlungen erfassen.
- Protokolle sind zeitgestempelte Datensätze von einzelnen Ereignissen, die in einer Anwendung oder einem System auftreten. Das Ereignis kann ein Fehler, ein Fehlschlag oder eine Statusänderung sein. Protokolle können Messwerte enthalten und Sie können sie auch für SLIs verwenden.
- Ein Trace stellt den Navigationspfad eines einzelnen Nutzers oder einer einzelnen Transaktion durch eine Reihe separater Anwendungen oder die Komponenten einer Anwendung dar. Das können beispielsweise Mikrodienste sein. Anhand von Traces können Sie nachvollziehen, welche Komponenten bei den Aufrufen verwendet wurden, wo Engpässe auftreten und wie lange die Aufrufe gedauert haben.
Mithilfe von Messwerten, Protokollen und Traces können Sie Ihr System kontinuierlich überwachen. Durch eine umfassende Überwachung können Sie herausfinden, wo und warum Fehler aufgetreten sind. Außerdem können Sie potenzielle Fehler erkennen, bevor sie auftreten.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um potenzielle Fehler effizient zu erkennen.
Umfassende Statistiken erhalten
Verwenden Sie Cloud Monitoring und Cloud Logging, um wichtige Messwerte wie Antwortzeiten und Fehlerraten zu erfassen. Mit diesen Tools können Sie außerdem dafür sorgen, dass die Messwerte die Anforderungen Ihrer Arbeitslast durchgehend erfüllen.
Analysieren Sie die Standarddienstmesswerte, um Komponentenabhängigkeiten und ihre Auswirkungen auf die Gesamtleistung der Arbeitslast zu verstehen und so fundierte Entscheidungen zu treffen.
Wenn Sie Ihre Monitoringstrategie anpassen möchten, können Sie mit dem Google Cloud SDK eigene Messwerte erstellen und veröffentlichen.
Proaktive Fehlerbehebung durchführen
Implementieren Sie eine robuste Fehlerbehandlung und aktivieren Sie die Protokollierung für alle Komponenten Ihrer Arbeitslasten in Google Cloud. Aktivieren Sie Logs wie Cloud Storage-Zugriffslogs und VPC-Flusslogs.
Berücksichtigen Sie beim Konfigurieren der Protokollierung die damit verbundenen Kosten. Um die Logging-Kosten zu kontrollieren, können Sie Ausschlussfilter für die Logsenken konfigurieren, um das Speichern bestimmter Logs auszuschließen.
Ressourcennutzung optimieren
Überwachen Sie den CPU-Verbrauch, die Netzwerk-I/O-Messwerte und die Laufwerk-I/O-Messwerte, um zu erkennen, ob Ressourcen in Diensten wie GKE, Compute Engine und Dataproc unter- oder überprovisioniert sind. Eine vollständige Liste der unterstützten Dienste finden Sie unter Cloud Monitoring – Übersicht.
Benachrichtigungen priorisieren
Konzentrieren Sie sich bei Benachrichtigungen auf wichtige Messwerte, legen Sie geeignete Grenzwerte fest, um die Anzahl der Benachrichtigungen zu minimieren, und sorgen Sie für eine zeitnahe Reaktion auf wichtige Probleme. Mit diesem zielgerichteten Ansatz können Sie die Zuverlässigkeit der Arbeitslast proaktiv aufrechterhalten. Weitere Informationen finden Sie unter Benachrichtigungen.