Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud -Architektur-Frameworks enthält Empfehlungen zur Planung, Erstellung und Verwaltung von Ressourcenredundanz, mit denen Sie Ausfälle vermeiden können.
Dieses Prinzip ist für den Umfang und den Fokusbereich der Zuverlässigkeit relevant.
Grundsatzübersicht
Nachdem Sie die erforderliche Zuverlässigkeit festgelegt haben, müssen Sie Ihre Systeme so konzipieren, dass Single Points of Failure vermieden werden. Alle kritischen Komponenten im System müssen auf mehreren Maschinen, Zonen und Regionen repliziert werden. Eine kritische Datenbank kann sich beispielsweise nicht nur in einer Region befinden und ein Metadatenserver kann nicht nur in einer einzigen Zone oder Region bereitgestellt werden. In diesen Beispielen tritt bei einem Ausfall der einzigen Zone oder Region ein globaler Ausfall des Systems auf.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um redundante Systeme zu erstellen.
Fehlerbereiche identifizieren und Dienste replizieren
Planen Sie die Fehlerbereiche Ihres Systems, von einzelnen VMs bis hin zu Regionen, und sorgen Sie für Redundanz in den Fehlerbereichen.
Verteilen und replizieren Sie Ihre Dienste und Anwendungen auf mehrere Zonen und Regionen, um eine hohe Verfügbarkeit zu gewährleisten. Konfigurieren Sie das System für den automatischen Failover, damit die Dienste und Anwendungen bei Zonenausfällen oder Regionsausfällen weiterhin verfügbar sind.
Beispiele für multizonale und multiregionale Architekturen finden Sie unter Zuverlässige Infrastruktur für Ihre Arbeitslasten in Google Cloud entwerfen.
Probleme schnell erkennen und beheben
Behalten Sie den Status Ihrer fehlerhaften Domains im Blick, um Probleme schnell zu erkennen und zu beheben.
Sie können den aktuellen Status der Google Cloud -Dienste in allen Regionen mithilfe des Google Cloud -Dashboards für den Dienststatus überwachen. Sie können auch Vorfälle, die für Ihr Projekt relevant sind, mit Personalized Service Health anzeigen. Mit Load Balancern können Sie den Ressourcenstatus erkennen und Traffic automatisch an fehlerfreie Backends weiterleiten. Weitere Informationen finden Sie unter Systemdiagnosen – Übersicht.
Failover-Szenarien testen
Simulieren Sie regelmäßig Ausfälle, um die Wirksamkeit Ihrer Replikations- und Failover-Strategien zu überprüfen.
Weitere Informationen finden Sie unter Ausfall einer Zone für eine regionale MIG simulieren und Ausfall einer Zone in GKE-Regionalclustern simulieren.