Asynchrone Replikation nichtflüchtiger Speicher


Die asynchrone Replikation von nichtflüchtiger Speichern (Persistent Disk Async Replication, PD Async Replication) bietet ein niedriges Recovery Point Objective (RPO) und einen niedrigen Recovery Time Objective (RTO) Speicherreplikation für regionenübergreifende Aktiv-Passiv-Notfallwiederherstellung.

PD Async Replication ist eine Speicheroption, die eine asynchrone Replikation von Daten zwischen zwei Regionen ermöglicht. Im unwahrscheinlichen Fall eines regionalen Ausfalls können Sie mit PD Async Replication für Ihre Daten ein Failover in einer sekundären Region durchführen und Ihre Arbeitslast in dieser Region neu starten.

Sie können PD Async Replication verwenden, um die Replikation für Compute Engine-Arbeitslasten auf Infrastrukturebene zu verwalten, anstatt die Arbeitslastebene.

Übersicht

Die asynchrone Replikation eines nichtflüchtigen Speichers repliziert Daten von einem Laufwerk, das an eine laufende Arbeitslast (das primäre Laufwerk) angehängt ist, auf ein separates Laufwerk in einer anderen Region. Das Laufwerk, auf das replizierte Daten empfangen werden, wird als sekundäres Laufwerk bezeichnet.

Die Region, in der sich das primäre Laufwerk befindet, wird als primäre Region bezeichnet. Die Region, in der sich das sekundäre Laufwerk befindet, wird als sekundäre Region bezeichnet. Die primäre und die sekundäre Region werden als Regionspaar bezeichnet.

Jedes Laufwerk, das die Laufwerkanforderungen erfüllt, kann als primäres Laufwerk verwendet werden. Nachdem Sie ein primäres Laufwerk erstellt haben, können Sie ein sekundäres Laufwerk erstellen, das auf das primäre Laufwerk verweist, und die Replikation vom primären zum sekundären Laufwerk starten.

Wenn Sie die Replikation vom primären Laufwerk zu irgendeinem Zeitpunkt stoppen und die Replikation zu einem späteren Zeitpunkt neu starten möchten, müssen Sie ein neues sekundäres Laufwerk erstellen, um die Replikation neu zu starten.

Konsistenzgruppen

Mit Konsistenzgruppen können Sie Notfallwiederherstellungen (Disaster Recovery, DR) und DR-Tests auf mehreren Laufwerken ausführen. Eine Konsistenzgruppe ist eine Ressourcenrichtlinie, die Folgendes ermöglicht:

  • Richtet die Replikation auf primären Laufwerken aus und sorgt dafür, dass alle Laufwerke Replikationsdaten von einem gemeinsamen Zeitpunkt enthalten, die für die Notfallwiederherstellung verwendet werden.
  • Richtet Laufwerkklone von sekundären Laufwerken aus und sorgt dafür, dass alle Laufwerkklone Daten von einem gemeinsamen Zeitpunkt enthalten, die für Notfallwiederherstellungsübungen verwendet werden.

Wenn Sie den Replikationszeitraum auf mehrere Laufwerke abstimmen möchten, fügen Sie einer Konsistenzgruppe primäre Laufwerke hinzu. Wenn Sie mehrere Laufwerke klonen und dafür sorgen möchten, dass diese Klone Daten von einem gemeinsamen Zeitpunkt enthalten, fügen Sie einer Konsistenzgruppe sekundäre Laufwerke hinzu. Eine Konsistenzgruppe kann für die Replikation oder das Klonen verwendet werden, aber nicht für beides gleichzeitig.

Wenn Sie einer Konsistenzgruppe primäre Laufwerke hinzufügen möchten, müssen Sie der Konsistenzgruppe Laufwerke hinzufügen, bevor Sie mit der Replikation beginnen. Sie können einer Konsistenzgruppe jederzeit sekundäre Laufwerke hinzufügen.

Failover und Failback

Bei einem Ausfall in der primären Region müssen Sie den Ausfall erkennen und Ihre Arbeitslast mit den sekundären Laufwerken in der sekundären Region per Failover neu starten. PD Async Replication bietet keine Überwachung von Ausfällen. Sie können einen Ausfall anhand von RPO-Messwerten, Systemdiagnosen, anwendungsspezifischen Messwerten und durch Kontaktaufnahme mit dem Cloud Customer Care erkennen.

Der Failover-Prozess umfasst die folgenden Aufgaben:

  1. Replikation beenden
  2. Hängen Sie die sekundären Laufwerke an VMs in der sekundären Region an.

Nachdem Sie die Laufwerke auf die sekundäre Zone umgestellt haben, müssen Sie die Anwendungsarbeitslast in der sekundären Zone prüfen und neu starten. Außerdem müssen Sie die Netzwerkadressen, die für den Zugriff auf Ihre Anwendung verwendet werden, so konfigurieren, dass sie auf die sekundäre Zone verweisen.

Nach einem Failover von der primären Region zur sekundären Region wird die sekundäre Region zur primären Region. Nachdem der Ausfall oder der Notfall behoben wurde, können Sie einen Failback starten, um die Replikation von der ursprünglichen sekundären Region (der primären primären Region) zur ursprünglichen primären Region zu starten. Optional können Sie den Vorgang wiederholen, um die Arbeitslast wieder in die ursprüngliche primäre Region zu verschieben.

Der Failback-Prozess umfasst die folgenden Aufgaben:

  1. Konfigurieren Sie die Replikation zwischen der neuen primären Region und der ursprünglichen primären Region.

    • Das ursprüngliche sekundäre Laufwerk ist jetzt das neue primäre Laufwerk und Sie konfigurieren es so, dass es auf ein neues sekundäres Laufwerk in der ursprünglichen primären Region repliziert wird.
    • Sie können eine neue Ressourcenrichtlinie für Konsistenzgruppen in der neuen primären Region erstellen, sodass die neuen primären Laufwerke (die ursprünglichen sekundären Laufwerke) konsistent in einer neuen Gruppe von sekundären Laufwerken in der ursprünglichen primären Region replizieren können.
  2. Optional: Nach der anfänglichen Replikation können Sie den Failover-Vorgang wiederholen, um die Arbeitslast in die ursprüngliche primäre Region zurückzugeben.

Laufwerksverschlüsselung

Primäre und sekundäre Laufwerke unterstützen keine vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK). Verwenden Sie stattdessen Google-eigene und von Google verwaltete Schlüssel oder vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK). Wenn Sie CMEK auf dem primären Laufwerk verwenden, müssen Sie CMEK auch auf dem sekundären Laufwerk verwenden. Sie können auf beiden Laufwerken unterschiedliche CMEKs verwenden.

Sekundäres Laufwerk anpassen

Wenn Sie ein sekundäres Laufwerk erstellen, kopiert Compute Engine die Eigenschaften des primären Laufwerks auf das sekundäre Laufwerk. Dazu gehören die Beschreibung, der Laufwerktyp und die Labels des primären Laufwerks.

Wenn das primäre Laufwerk ein Bootlaufwerk ist, hat das sekundäre Laufwerk auch die Bootkonfiguration des primären Laufwerks. Die Bootkonfiguration enthält Informationen zur Betriebssystemarchitektur, zu Betriebssystemlizenzen und zu den Funktionen des Gastbetriebssystems.

Sie können bestimmte Eigenschaften des sekundären Laufwerks so ändern, dass sie sich vom primären Laufwerk unterscheiden. Beispielsweise müssen das primäre und das sekundäre Laufwerk dieselbe Größe und denselben Verschlüsselungsschlüssel haben. Dem sekundären Laufwerk können Sie jedoch zusätzliche Labels zuweisen.

Bei Bootlaufwerken können Sie zusätzliche Sicherheits- oder Netzwerkoptionen auf dem sekundären Laufwerk aktivieren, indem Sie zusätzliche Gastbetriebssystem-Features angeben. Die Gastbetriebssystem-Features des primären Laufwerks können jedoch nicht entfernt werden. Die Compute Engine führt die von Ihnen angegebenen neuen Features mit den vorhandenen Gastbetriebssystem-Features des primären Laufwerks zusammen.

Beispiel

Angenommen, Sie haben ein Bootlaufwerk namens disk-1 mit den folgenden Gastbetriebssystem-Features: [GVNIC, UEFI_COMPATIBLE].

Wenn Sie ein sekundäres Laufwerk aus disk-1 erstellen, können Sie nur zusätzliche Funktionen angeben. Die Funktionen UEFI_COMPATIBLE und GVNIC können nicht entfernt werden. Wenn Sie daher beim Erstellen des sekundären Laufwerks MULTI_IP_SUBNET angeben, wird das neue Feature mit dem des primären Laufwerks zusammengeführt. Die resultierenden Gastbetriebssystem-Features für das sekundäre Laufwerk sind also GVNIC, UEFI_COMPATIBLE und MULTI_IP_SUBNET.

Informationen zum Anpassen eines sekundären Laufwerks finden Sie unter Benutzerdefiniertes sekundäres Laufwerk erstellen.

PD Async Replication und regionale nichtflüchtige Speicher

Sie können die asynchrone Replikation nichtflüchtiger Speicher mit regionalen nichtflüchtigen Speichern verwenden, um Hochverfügbarkeit und Notfallwiederherstellung zu erreichen.

Regionale nichtflüchtige Speicher können als primäres oder sekundäres Laufwerk in einem Laufwerkpaar für die asynchrone Replikation nichtflüchtiger Speicher verwendet werden. Ein Laufwerkpaar besteht aus einem primären Laufwerk, das auf ein sekundäres Laufwerk repliziert wird.

Wenn Sie ein regionales Laufwerk als primäres Laufwerk verwenden, läuft die Replikation auch dann weiter, wenn in einer der Zonen ein Ausfall auftritt. Das regionale primäre Laufwerk repliziert weiterhin Daten aus der fehlerfreien Zone auf das sekundäre Laufwerk. Wenn ein regionales Laufwerk als sekundäres Laufwerk dient, wird die Replikation auch bei einem Ausfall in einer der Zonen fortgesetzt. Wenn Sie ein regionales Laufwerk als sekundäres Laufwerk verwenden, ist Ihre Arbeitslast für eine hohe Verfügbarkeit über Zonen hinweg im Falle eines Failovers gerüstet, bei dem das sekundäre Laufwerk zum neuen primären Laufwerk wird.

Beschränkungen

  • Die PD Async Replication wird nur für ausgeglichenen nichtflüchtigen SSD-Speicher (Persistent Disk) unterstützt.
  • Schreibgeschützte Laufwerke und Laufwerke für mehrere Autoren werden nicht unterstützt.
  • Jedes Laufwerk kann eine maximale Größe von 32 TiB haben.
  • Sie müssen die Replikation beenden, bevor Sie ein primäres oder sekundäres Laufwerk löschen können.
  • Wenn die Replikation des Bootlaufwerks einer VM noch nicht abgeschlossen ist, können Sie die VM erst löschen, wenn Sie die Replikation beendet haben.
  • Wenn ein primäres Laufwerk als Nicht-Bootlaufwerk an eine VM angehängt ist und das Laufwerk so konfiguriert ist, dass es mit der VM gelöscht wird, können Sie die VM oder das Laufwerk erst löschen, wenn Sie die Replikation beenden oder das primäre Laufwerk von der VM trennen. Versuche, die VM zu löschen, schlagen fehl, bis Sie die Replikation beenden.
  • Jedes Projekt kann in jedem Regionspaar maximal 1.000 Laufwerkpaare haben.

    In einem bestimmten Projekt kann project-1 beispielsweise bis zu 1.000 Laufwerkspaare im Iowa-Oregon-Regionspaar haben. project-1 kann auch bis zu 1.000 Laufwerkpaare im Regionspaar Belgien-Frankfurt haben.

Unterstützte Regionen

Die asynchrone PD-Replikation ist in allen Regionen der folgenden Kontinente verfügbar:

  • Asien, außer Indonesien
  • Europa
  • Nordamerika
  • Ozeanien

Sie können ein primäres Laufwerk in einer bestimmten Region auf ein sekundäres Laufwerk in einer beliebigen verfügbaren Region auf demselben Kontinent replizieren. Das bedeutet, dass Sie ein Regionspaar aus beliebigen zwei Regionen innerhalb desselben Kontinents erstellen können.

Angenommen, Sie haben ein primäres Laufwerk in Frankfurt (europe-west3). Sie können dieses Laufwerk auf ein sekundäres Laufwerk überall in Europa replizieren, aber nicht auf ein Laufwerk in Nordamerika.

Eine vollständige Liste aller Regionen in der Compute Engine finden Sie unter Verfügbare Zonen und Regionen.

Leistung

Das Recovery Point Objective (RPO) oder die Zeitverzögerung, wann Daten am sekundären Standort verfügbar sind, hängt von den Laufwerksänderungsraten ab. Bei PD Async Replication werden in der Regel Daten mit einem Ziel-RPO von einer Minute repliziert, bis zu 12,5 GB komprimierter geänderter Blöcke pro Minute, wobei Laufwerkblöcke mit einer Granularität von 4 KB repliziert werden. Wenn ein bestimmter Block zwischen Replikationsereignissen mehrmals geändert wird, wird nur die letzte Änderung auf das sekundäre Laufwerk repliziert. Bei höheren Laufwerkänderungsraten kann der RPO mehr als eine Minute betragen. Er steigt in der Regel mit der Laufwerkänderungsrate. RPO kann nicht konfiguriert werden.

In den folgenden Fällen kann der RPO eine Minute überschreiten:

  • Wenn die Laufwerkreplikation gestartet wird Während der anfänglichen Replikation werden mit der PD Async Replication alle verwendeten Blöcke auf dem primären Laufwerk auf das sekundäre Laufwerk repliziert. Die Erstreplikation ist abgeschlossen, wenn der Messwert disk/async_replication/time_since_last_replication in Cloud Monitoring verfügbar ist.
  • Wenn die Änderungsrate des Laufwerks größer als 12,5 GB komprimierter geänderter Blöcke pro Minute ist. Nach einem Anstieg der Laufwerkänderungen kann der RPO für spätere Replikationszyklen eine Minute überschreiten, während die Replikation aufholt.
  • Wenn Sie ein Laufwerk von einer VM trennen oder eine VM neu starten, während das Laufwerk repliziert wird. Bei Laufwerken, die von einer VM getrennt werden, wird der RPO-Wert für kurze Zeit möglicherweise bis zu fünf Minuten erhöht.

Informationen zum Anzeigen des RPO für Ihre Laufwerke finden Sie unter Leistungsmesswerte für asynchrone Replikation eines nichtflüchtigen Speichers.

Das Ziel der Wiederherstellungszeit (RTO) während des failover hängt von der Zeit ab, die für die verschiedenen Aufgaben erforderlich ist, die mit dem Failover einer Arbeitslast in eine neue Region verbunden sind. Aufgaben wie das Beenden der Replikation und das Anhängen von Laufwerken an VMs in der sekundären Region sollten nur wenige Minuten dauern. Sie können die RTO beschleunigen, indem Sie dafür sorgen, dass in der sekundären Region VMs ausgeführt werden. So müssen Sie bei einem Failover nicht auf das Starten der VMs warten.

Nächste Schritte