Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud -Architektur-Frameworks enthält Empfehlungen zum Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust.
Dieses Prinzip ist für den Lern- Fokusbereich „Zuverlässigkeit“ relevant.
Grundsatzübersicht
Damit Ihr System bei Datenverlust oder Beschädigung wiederhergestellt werden kann, müssen Sie Tests für diese Szenarien ausführen. Datenverluste können durch einen Softwarefehler oder eine Naturkatastrophe verursacht werden. Nach solchen Ereignissen müssen Sie die Daten aus den Sicherungen wiederherstellen und alle Dienste mit den gerade wiederhergestellten Daten neu starten.
Wir empfehlen, drei Kriterien zu verwenden, um den Erfolg oder Misserfolg dieser Art von Wiederherstellungstest zu beurteilen: Datenintegrität, Recovery Time Objective (RTO) und Recovery Point Objective (RPO). Weitere Informationen zu den Messwerten RTO und RPO finden Sie unter Grundlagen der Planung der Notfallwiederherstellung.
Das Ziel von Tests zur Datenwiederherstellung besteht darin, regelmäßig zu prüfen, ob Ihre Organisation die Anforderungen an die Geschäftskontinuität weiterhin erfüllen kann. Neben der Messung von RTO und RPO muss ein Test zur Datenwiederherstellung den gesamten Anwendungsstack und alle kritischen Infrastrukturdienste mit den wiederhergestellten Daten umfassen. So lässt sich prüfen, ob die gesamte bereitgestellte Anwendung in der Testumgebung ordnungsgemäß funktioniert.
Empfehlungen
Berücksichtigen Sie beim Entwerfen und Ausführen von Tests zur Wiederherstellung nach Datenverlust die Empfehlungen in den folgenden Abschnitten.
Konsistenz der Sicherungen prüfen und Wiederherstellungsverfahren testen
Sie müssen prüfen, ob Ihre Sicherungen konsistente und verwendbare Snapshots von Daten enthalten, die Sie wiederherstellen können, um Anwendungen sofort wieder in Betrieb zu nehmen. Um die Datenintegrität zu prüfen, können Sie automatische Konsistenzprüfungen einrichten, die nach jeder Sicherung ausgeführt werden.
Wenn Sie Sicherungen testen möchten, stellen Sie sie in einer Nicht-Produktionsumgebung wieder her. Simulieren Sie regelmäßig Datenwiederherstellungsszenarien, damit Ihre Sicherungen effizient wiederhergestellt werden können und die wiederhergestellten Daten die Anwendungsanforderungen erfüllen. Dokumentieren Sie die Schritte zur Datenwiederherstellung und schulen Sie Ihre Teams, diese Schritte bei einem Ausfall effektiv auszuführen.
Regelmäßige und häufige Sicherungen planen
Um Datenverluste bei der Wiederherstellung zu minimieren und die RPO-Ziele zu erreichen, sind regelmäßig geplante Sicherungen unerlässlich. Legen Sie eine Sicherungshäufigkeit fest, die Ihrem RPO entspricht. Wenn Ihr RPO beispielsweise 15 Minuten beträgt, planen Sie Sicherungen mindestens alle 15 Minuten. Optimieren Sie die Sicherungsintervalle, um das Risiko von Datenverlusten zu verringern.
Verwenden Sie Google Cloud -Tools wie Cloud Storage, automatische Cloud SQL-Sicherungen oder Spanner-Sicherungen, um Sicherungen zu planen und zu verwalten. Verwenden Sie für kritische Anwendungen nahezu kontinuierliche Sicherungslösungen wie die Wiederherstellung zu einem bestimmten Zeitpunkt (Point-in-Time-Recovery, PITR) für Cloud SQL oder inkrementelle Sicherungen für große Datenmengen.
RPO definieren und überwachen
Legen Sie ein klares RPO basierend auf Ihren Geschäftsanforderungen fest und überwachen Sie die Einhaltung des RPO. Wenn die Sicherungsintervalle das definierte RPO überschreiten, richten Sie mit Cloud Monitoring Benachrichtigungen ein.
Zustand der Sicherung überwachen
Verwenden Sie den Google Cloud Sicherungs- und Notfallwiederherstellungsdienst oder ähnliche Tools, um den Zustand Ihrer Sicherungen im Blick zu behalten und sicherzustellen, dass sie an sicheren und zuverlässigen Orten gespeichert werden. Sorgen Sie für eine Replikation der Sicherungen in mehreren Regionen, um die Ausfallsicherheit zu erhöhen.
Szenarien jenseits der Sicherung planen
Kombinieren Sie Sicherungen mit Strategien zur Notfallwiederherstellung wie Active-Active-Failover-Konfigurationen oder regionenübergreifender Replikation, um in Extremfällen die Wiederherstellungszeit zu verkürzen. Weitere Informationen finden Sie im Leitfaden zur Planung der Notfallwiederherstellung.