Die asynchrone Replikation nichtflüchtiger Speicher (PD Async Replication) bietet eine Blockspeicherreplikation mit niedrigem Recovery Point Objective (RPO) und niedrigem Recovery Time Objective (RTO) für die regionsübergreifende Aktiv-Passiv-Notfallwiederherstellung.
PD Async Replication ist eine Speicheroption, die eine asynchrone Replikation von Daten zwischen zwei Regionen ermöglicht. Im unwahrscheinlichen Fall eines regionalen Ausfalls können Sie Ihre Daten mit PD Async Replication in eine sekundäre Region übertragen und Ihre Arbeitslast in dieser Region neu starten.
Sie können PD Async Replication verwenden, um die Replikation für Compute Engine-Arbeitslasten auf Infrastrukturebene zu verwalten, anstatt auf Arbeitslastebene.
Übersicht
Bei der asynchronen Replikation nichtflüchtiger Speicher werden Daten von einem Laufwerk, das an eine laufende Arbeitslast (das primäre Laufwerk) angehängt ist, auf ein separates Laufwerk in einer anderen Region repliziert. Das Laufwerk, auf dem die replizierten Daten empfangen werden, wird als sekundäres Laufwerk bezeichnet.
Die Region, in der sich das primäre Laufwerk befindet, wird als primäre Region bezeichnet. Die Region, in der sich das sekundäre Laufwerk befindet, wird als sekundäre Region bezeichnet. Die primäre und die sekundäre Region sind ein Regionspaar.
Als primäres Laufwerk kann jedes Laufwerk verwendet werden, das die Laufwerkanforderungen erfüllt. Nachdem Sie ein primäres Laufwerk erstellt haben, können Sie ein sekundäres Laufwerk erstellen, das auf das primäre Laufwerk verweist, und die Replikation vom primären zum sekundären Laufwerk starten.
Wenn Sie die Replikation vom primären Laufwerk zu irgendeinem Zeitpunkt stoppen und die Replikation zu einem späteren Zeitpunkt neu starten möchten, müssen Sie ein neues sekundäres Laufwerk erstellen, um die Replikation neu zu starten.
Konsistenzgruppen
Mit Konsistenzgruppen können Sie Notfallwiederherstellungen (Disaster Recovery, DR) und DR-Tests auf mehreren Laufwerken ausführen. Eine Konsistenzgruppe ist eine Ressourcenrichtlinie, die Folgendes tut:
- Sie stimmt die Replikation für primäre Laufwerke ab und sorgt dafür, dass alle Laufwerke Replikationsdaten von einem gemeinsamen Zeitpunkt enthalten, die für die Notfallwiederherstellung verwendet werden.
- Sie stimmt Laufwerksklone von sekundären Laufwerken ab und sorgt dafür, dass alle Laufwerksklone Daten von einem gemeinsamen Zeitpunkt enthalten, die für Übungen zur Notfallwiederherstellung verwendet werden.
Wenn Sie den Replikationszeitraum für mehrere Laufwerke abstimmen möchten, fügen Sie einer Konsistenzgruppe primäre Laufwerke hinzu. Wenn Sie mehrere Laufwerke klonen und dafür sorgen möchten, dass die Klone Daten von einem gemeinsamen Zeitpunkt enthalten, fügen Sie einer Konsistenzgruppe sekundäre Laufwerke hinzu. Eine Konsistenzgruppe kann für die Replikation oder das Klonen verwendet werden, aber nicht für beides gleichzeitig.
Wenn Sie einer Konsistenzgruppe primäre Laufwerke hinzufügen möchten, müssen Sie der Konsistenzgruppe Laufwerke hinzufügen, bevor Sie mit der Replikation beginnen. Sie können einer Konsistenzgruppe jederzeit sekundäre Laufwerke hinzufügen.
Failover und Failback
Bei einem Ausfall in der primären Region müssen Sie den Ausfall selbst erkennen und Ihre Arbeitslast mit den sekundären Laufwerken in der sekundären Region per Failover neu starten. PD Async Replication bietet keine Ausfallüberwachung. Sie können Ausfälle anhand von RPO-Messwerten, Systemdiagnosen, anwendungsspezifischen Messwerten und durch Kontaktaufnahme mit Cloud Customer Care erkennen.
Der Failover-Prozess umfasst die folgenden Aufgaben:
- Replikation beenden
- Hängen Sie die sekundären Laufwerke an VMs in der sekundären Region an.
Nachdem Sie den Failover für die Laufwerke ausgeführt haben, müssen Sie die Anwendungsarbeitslast in der sekundären Region prüfen und neu starten. Außerdem müssen Sie die Netzwerkadressen, die für den Zugriff auf Ihre Anwendung verwendet werden, so konfigurieren, dass sie auf die sekundäre Region verweisen.
Nach einem Failover von der primären Region zur sekundären Region wird die sekundäre Region zur aktiven primären Region. Nachdem der Ausfall oder das Problem behoben wurde, können Sie einen Failback initiieren, um die Replikation von der ursprünglichen sekundären Region (der aktiven primären Region) zur ursprünglichen primären Region zu starten. Optional können Sie den Vorgang wiederholen, um die Arbeitslast wieder in die ursprüngliche primäre Region zu verschieben.
Der Failback-Prozess umfasst die folgenden Aufgaben:
Konfigurieren Sie die Replikation zwischen der neuen und der ursprünglichen primären Region.
- Das ursprüngliche sekundäre Laufwerk ist jetzt das neue primäre Laufwerk. Konfigurieren Sie es so, dass es auf ein neues sekundäres Laufwerk in der ursprünglichen primären Region repliziert wird.
- Sie können eine neue Ressourcenrichtlinie für Konsistenzgruppen in der neuen primären Region erstellen, sodass die neuen primären Laufwerke (die ursprünglichen sekundären Laufwerke) konsistent in einer neuen Gruppe von sekundären Laufwerken in der ursprünglichen primären Region replizieren können.
Optional: Nach der Erstreplikation können Sie den Failover-Prozess wiederholen, um die Arbeitslast in die ursprüngliche primäre Region zurückzugeben.
Laufwerksverschlüsselung
Primäre und sekundäre Laufwerke unterstützen keine vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK). Verwenden Sie stattdessen Verschlüsselungsschlüssel, die auf Google Cloud basieren, oder vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK). Wenn Sie CMEK für das primäre Laufwerk verwenden, müssen Sie dieselbe Methode auch für das sekundäre Laufwerk verwenden. Sie können auf den Laufwerken aber unterschiedliche CMEKs verwenden.
Sekundäres Laufwerk anpassen
Wenn Sie ein sekundäres Laufwerk erstellen, kopiert Compute Engine die Eigenschaften des primären Laufwerks auf das sekundäre Laufwerk. Dazu gehören die Beschreibung, der Laufwerkstyp und die Labels des primären Laufwerks.
Wenn das primäre Laufwerk ein Bootlaufwerk ist, hat das sekundäre Laufwerk auch die Bootkonfiguration des primären Laufwerks. Die Bootkonfiguration enthält Informationen zur Betriebssystemarchitektur, zu Betriebssystemlizenzen und zu den Features des Gastbetriebssystems.
Sie können bestimmte Eigenschaften des sekundären Laufwerks so ändern, dass sie sich vom primären Laufwerk unterscheiden. Beispielsweise müssen das primäre und das sekundäre Laufwerk dieselbe Größe und denselben Verschlüsselungsschlüssel haben, aber Sie können dem sekundären Laufwerk zusätzliche Labels zuweisen.
Bei Bootlaufwerken können Sie weitere Sicherheits- oder Netzwerkoptionen auf dem sekundären Laufwerk aktivieren, indem Sie zusätzliche Gastbetriebssystem-Features angeben. Die Gastbetriebssystem-Features des primären Laufwerks können jedoch nicht entfernt werden. Die Compute Engine führt die von Ihnen angegebenen neuen Features mit den vorhandenen Gastbetriebssystem-Features des primären Laufwerks zusammen.
Beispiel
Angenommen, Sie haben ein Bootlaufwerk namens disk-1
mit den folgenden Gastbetriebssystem-Features: [GVNIC, UEFI_COMPATIBLE]
.
Wenn Sie ein sekundäres Laufwerk aus disk-1
erstellen, können Sie nur zusätzliche Features angeben. Sie können die Features UEFI_COMPATIBLE
und GVNIC
nicht entfernen.
Wenn Sie daher beim Erstellen des sekundären Laufwerks MULTI_IP_SUBNET
angeben, wird das neue Feature mit dem des primären Laufwerks zusammengeführt. Die resultierenden Gastbetriebssystem-Features für das sekundäre Laufwerk sind also GVNIC
, UEFI_COMPATIBLE
und MULTI_IP_SUBNET
.
Informationen zum Anpassen eines sekundären Laufwerks finden Sie unter Benutzerdefiniertes sekundäres Laufwerk erstellen.
Asynchrone Replikation nichtflüchtiger Speicher (PD Async Replication) und regionale nichtflüchtige Speicher
Sie können PD Async Replication mit regionalen Persistent Disk-Volumes verwenden, um Hochverfügbarkeit und Notfallwiederherstellung zu erreichen.
Regionale nichtflüchtige Speicher können als primäres oder sekundäres Laufwerk in einem Laufwerkspaar für die asynchrone Replikation nichtflüchtiger Speicher verwendet werden. Ein Laufwerkspaar besteht aus einem primären Laufwerk, das auf ein sekundäres Laufwerk repliziert wird.
Wenn Sie ein regionales Laufwerk als primäres Laufwerk verwenden, läuft die Replikation auch dann weiter, wenn in einer der Zonen ein Ausfall auftritt. Das regionale primäre Laufwerk repliziert weiterhin Daten aus der fehlerfreien Zone auf das sekundäre Laufwerk. Wenn ein regionales Laufwerk als sekundäres Laufwerk dient, wird die Replikation auch bei einem Ausfall in einer der Zonen fortgesetzt. Wenn Sie ein regionales Laufwerk als sekundäres Laufwerk verwenden, ist Ihre Arbeitslast für zonenübergreifende Hochverfügbarkeit im Falle eines Failovers gerüstet, bei dem das sekundäre Laufwerk zum neuen primären Laufwerk wird.
Beschränkungen
- Die PD Async Replication wird nur für ausgeglichenen nichtflüchtigen SSD-Speicher (Persistent Disk) unterstützt.
- Schreibgeschützte Laufwerke und Laufwerke für mehrere Autoren werden nicht unterstützt.
- Jedes Laufwerk kann eine maximale Größe von 32 TiB haben.
- Sie müssen die Replikation beenden, bevor Sie ein primäres oder sekundäres Laufwerk löschen können.
- Wenn die Replikation des Bootlaufwerks einer VM noch nicht abgeschlossen ist, können Sie die VM erst löschen, wenn Sie die Replikation beendet haben.
- Wenn ein primäres Laufwerk als Nicht-Bootlaufwerk an eine VM angehängt ist und das Laufwerk so konfiguriert ist, dass es mit der VM gelöscht wird, können Sie die VM oder das Laufwerk erst löschen, wenn Sie die Replikation beenden oder das primäre Laufwerk von der VM trennen. Versuche, die VM zu löschen, schlagen fehl, bis Sie die Replikation beenden.
Jedes Projekt kann in jedem Regionspaar maximal 1.000 Laufwerkspaare haben.
Beispiel: Projekt
project-1
kann bis zu 1.000 Laufwerkspaare im Regionspaar Iowa-Oregon haben.project-1
kann auch bis zu 1.000 Laufwerkspaare im Regionspaar Belgien-Frankfurt haben.
Unterstützte Regionen
PD Async Replication ist in allen Regionen der folgenden Kontinente verfügbar:
- Asien, außer Indonesien
- Europa
- Nordamerika
- Ozeanien
Sie können ein primäres Laufwerk aus einer bestimmten Region auf ein sekundäres Laufwerk in einer beliebigen verfügbaren Region auf demselben Kontinent replizieren. Das bedeutet, dass Sie ein Regionspaar aus zwei beliebigen Regionen erstellen können, die sich auf demselben Kontinent befinden.
Angenommen, Sie haben ein primäres Laufwerk in Frankfurt (europe-west3
). Sie können dieses Laufwerk auf ein sekundäres Laufwerk überall in Europa replizieren, aber nicht auf ein Laufwerk in einer Region in Nordamerika.
Eine vollständige Liste aller Regionen in der Compute Engine finden Sie unter Verfügbare Zonen und Regionen.
Leistung
Das Recovery Point Objective (RPO) oder die Zeitverzögerung, bis Daten am sekundären Standort verfügbar sind, hängt von den Laufwerksänderungsraten ab. Bei PD Async Replication werden Daten in der Regel mit einem Ziel-RPO von einer Minute repliziert, für bis zu 12,5 GB komprimierter geänderter Blöcke pro Minute, wobei Laufwerksblöcke mit einer Granularität von 4 KB repliziert werden. Wenn ein bestimmter Block zwischen Replikationsereignissen mehrmals geändert wird, wird nur die letzte Änderung auf das sekundäre Laufwerk repliziert. Bei höheren Laufwerksänderungsraten kann das RPO mehr als eine Minute betragen. Es steigt in der Regel mit der Laufwerksänderungsrate. Das RPO kann nicht konfiguriert werden.
In den folgenden Fällen kann das RPO eine Minute überschreiten:
- Wenn die Laufwerksreplikation gestartet wird. Während der Erstreplikation werden mit PD Async Replication alle verwendeten Blöcke auf dem primären Laufwerk auf das sekundäre Laufwerk repliziert. Die Erstreplikation ist abgeschlossen, wenn der Messwert
disk/async_replication/time_since_last_replication
in Cloud Monitoring verfügbar ist. - Wenn die Änderungsrate des Laufwerks größer ist als 12,5 GB komprimierter geänderter Blöcke pro Minute. Nach einem Anstieg der Laufwerksänderungen kann das RPO für spätere Replikationszyklen eine Minute überschreiten, während die Replikation aufholt.
- Wenn Sie ein Laufwerk von einer VM trennen oder eine VM neu starten, während das Laufwerk repliziert wird. Bei Laufwerken, die von einer VM getrennt werden, wird der RPO-Wert für kurze Zeit möglicherweise bis zu fünf Minuten erhöht.
Informationen zum Anzeigen des RPO für Ihre Laufwerke finden Sie unter Leistungsmesswerte für asynchrone Replikation eines nichtflüchtigen Speichers.
Das Recovery Time Objective (RTO) während des Failover hängt von der Zeit ab, die für die verschiedenen Aufgaben erforderlich ist, die mit dem Failover einer Arbeitslast in eine neue Region verbunden sind. Aufgaben wie das Beenden der Replikation und das Anhängen von Laufwerken an VMs in der sekundären Region sollten nur wenige Minuten dauern. Sie können das RTO verkürzen, indem Sie dafür sorgen, dass VMs in der sekundären Region ausgeführt werden. So müssen Sie bei einem Failover nicht auf das Starten der VMs warten.
Nächste Schritte
- Replikation konfigurieren
- Replikation verwalten
- Konsistenzgruppen verwalten
- Failover und Failback
- Laufwerke verwalten, die PD Async Replication verwenden
- Leistung der asynchronen Replikation eines nichtflüchtigen Speichers überwachen