Google Cloud-Infrastruktur verwalten und überwachen

Last reviewed 2023-11-13 UTC

Nachdem Sie eine Anwendung für die Produktion in Google Cloud bereitgestellt haben, müssen Sie möglicherweise die verwendete Infrastruktur ändern. Es kann beispielsweise sein, dass Sie die Maschinentypen Ihrer VMs oder die Speicherklasse der Cloud Storage-Buckets ändern müssen. In diesem Teil des Leitfadens zur Zuverlässigkeit der Google Cloud-Infrastruktur sind Richtlinien für das Änderungsmanagement zusammengefasst, denen Sie folgen können, um das Zuverlässigkeitsrisiko der Infrastrukturressourcen zu reduzieren. In diesem Teil wird auch beschrieben, wie Sie die Verfügbarkeit der Google Cloud-Infrastruktur überwachen können.

Infrastrukturänderungen schrittweise bereitstellen

Wenn die Google Cloud-Infrastruktur geändert werden muss, führen Sie die Änderungen so weit wie möglich schrittweise für die Produktion ein. Wenn Sie beispielsweise die Maschinentypen der VMs ändern müssen, stellen Sie die Änderungen auf einigen VMs in einer Zone bereit und überwachen Sie die Auswirkungen der Änderungen. Wenn Probleme auftreten, setzen Sie die Infrastruktur schnell auf den vorherigen stabilen Zustand zurück. Diagnostizieren und beheben Sie die Probleme und starten Sie dann den schrittweisen Bereitstellungsprozess neu. Nachdem Sie sichergestellt haben, dass Ihre Arbeitslast wie erwartet ausgeführt wird, stellen Sie die Änderungen schrittweise für die gesamte Infrastruktur bereit.

Weitere Informationen zu Strategien zum zuverlässigen Testen und Bereitstellen von Änderungen an der Google Cloud-Infrastruktur und -Anwendungen finden Sie unter Strategien für Bereitstellung und Tests von Anwendungen.

Änderungen an globalen Ressourcen steuern

Wenn Sie globale Ressourcen wie VPC-Netzwerke und globale Load-Balancer ändern, müssen Sie die Änderungen vor der Bereitstellung in der Produktion besonders überprüfen.

Da globale Ressourcen gegen Zonen- und Regionsausfälle resistent sind, können Sie einzelne Instanzen bestimmter globaler Ressourcen in Ihrer Architektur verwenden. In solchen Bereitstellungen können die globalen Ressourcen zu Single Points of Failure werden. Wenn Sie beispielsweise versehentlich eine Weiterleitungsregel Ihres globalen Load-Balancers falsch konfigurieren, kann das Frontend keine Nutzeranfragen mehr empfangen oder verarbeiten. In diesem Fall ist die Anwendung für Nutzer nicht verfügbar, obwohl das Backend intakt ist. Um solche Situationen zu vermeiden, sollten Sie Änderungen an globalen Ressourcen streng kontrollieren. In Ihrem Änderungsüberprüfungsprozess können Sie beispielsweise Änderungen an globalen Ressourcen als Änderungen mit hohem Risiko klassifizieren, die zusätzliche Prüfer prüfen und genehmigen müssen.

Verfügbarkeit der Google Cloud-Infrastruktur überwachen

Sie können den aktuellen Status der Google Cloud-Dienste in allen Regionen mithilfe des Dashboard von Google Cloud Service Health überwachen. Außerdem können Sie für jeden Dienst einen Verlauf der Infrastrukturfehler (Vorfälle) aufrufen. Die Seite "Verlauf" enthält die Details zu jedem Vorfall, z. B. die Dauer des Vorfalls, die betroffenen Zonen und Regionen, die betroffenen Dienste und alle empfohlenen Problemumgehungen.

Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personal Service Health anzeigen. Mit Service Health können Sie auch Vorfallsinformationen mithilfe einer API pro Projekt oder Organisation anfordern und Benachrichtigungen konfigurieren.

Google stellt regelmäßig Statusaktualisierungen zu jedem Vorfall bereit, einschließlich einer geschätzten Zeit bis zur nächsten Aktualisierung. Mit einem RSS-Feed können Sie programmatisch Statusaktualisierungen für Vorfälle abrufen. Weitere Informationen finden Sie unter Vorfälle und das Google Cloud Service Health Dashboard.