Asynchrone Replikation nichtflüchtiger Speicher


Die asynchrone Replikation von nichtflüchtiger Speichern (Persistent Disk Async Replication, PD Async Replication) bietet ein niedriges Recovery Point Objective (RPO) und einen niedrigen Recovery Time Objective (RTO) Speicherreplikation für regionenübergreifende Aktiv-Passiv-Notfallwiederherstellung.

PD Async Replication ist eine Speicheroption, die eine asynchrone Replikation von Daten zwischen zwei Regionen bietet. Im unwahrscheinlichen Fall eines regionalen Ausfalls können Sie mit der asynchronen PD-Replikation Ihre Daten in eine sekundäre Region übertragen und Ihre Arbeitslast in dieser Region neu starten.

Sie können die asynchrone PD-Replikation verwenden, um die Replikation für Compute Engine-Arbeitslasten auf Infrastrukturebene zu verwalten, anstatt auf der Arbeitslastebene.

Überblick

Die asynchrone Replikation eines nichtflüchtigen Speichers repliziert Daten von einem Laufwerk, das an eine laufende Arbeitslast (das primäre Laufwerk) angehängt ist, auf ein separates leeres Laufwerk, das sich in einer anderen Region (dem sekundären Laufwerk) befindet. Die Region, in der sich das primäre Laufwerk befindet, wird als primäre Region und die Region, in der sich das sekundäre Laufwerk befindet, als sekundäre Region bezeichnet.

Jedes Laufwerk, das die Laufwerksanforderungen erfüllt, kann als primäres Laufwerk verwendet werden. Nachdem Sie ein primäres Laufwerk erstellt haben, können Sie ein sekundäres Laufwerk erstellen, das auf das primäre Laufwerk verweist, und die Replikation vom primären zum sekundären Laufwerk starten.

Wenn Sie die Replikation vom primären Laufwerk zu irgendeinem Zeitpunkt stoppen und die Replikation zu einem späteren Zeitpunkt neu starten möchten, müssen Sie ein neues sekundäres Laufwerk erstellen, um die Replikation neu zu starten.

Konsistenzgruppen

Mit Konsistenzgruppen können Sie Notfallwiederherstellungs- und Notfallwiederherstellungstests über mehrere Laufwerke hinweg durchführen. Eine Konsistenzgruppe ist eine Ressourcenrichtlinie, die Folgendes ausführt:

  • Richtet die Replikation über die primären Laufwerke aus und stellt sicher, dass alle Laufwerke Replikationsdaten von einem gemeinsamen Zeitpunkt enthalten, der für die Notfallwiederherstellung verwendet wird.
  • Richtet Laufwerkklone von sekundären Laufwerken aus und stellt sicher, dass alle Laufwerkklone Daten aus einem gemeinsamen Zeitpunkt enthalten, der für DR-Bohrvorgänge verwendet wird.

Wenn Sie den Replikationszeitraum auf mehrere Laufwerke ausrichten möchten, fügen Sie einer Konsistenzgruppe primäre Laufwerke hinzu. Wenn Sie mehrere Laufwerke klonen und dafür sorgen möchten, dass diese Klone Daten von einem gemeinsamen Zeitpunkt enthalten, fügen Sie einer Konsistenzgruppe sekundäre Laufwerke hinzu. Eine Konsistenzgruppe kann zum Replizieren oder Klonen verwendet werden, aber nicht gleichzeitig.

Wenn Sie einer Konsistenzgruppe primäre Laufwerke hinzufügen möchten, müssen Sie der Konsistenzgruppe Laufwerke hinzufügen, bevor Sie mit der Replikation beginnen. Sie können einer Konsistenzgruppe jederzeit sekundäre Laufwerke hinzufügen.

Failover und Failback

Bei einem Ausfall in der primären Region sind Sie dafür verantwortlich, den Ausfall zu identifizieren und Ihre Arbeitslast mithilfe der sekundären Laufwerke in der sekundären Region neu zu starten. Die PD Async Replication bietet kein Ausfallmonitoring. Sie können einen Ausfall mithilfe von RPO-Messwerten, Systemdiagnosen, anwendungsspezifischen Messwerten und durch Kontaktaufnahme mit Cloud Customer Care identifizieren.

Der Failover-Prozess umfasst die folgenden Aufgaben:

  1. Replikation beenden
  2. Hängen Sie die sekundären Laufwerke an VMs in der sekundären Region an.

Nach dem Failover von Laufwerken müssen Sie die Anwendungsarbeitslast in der sekundären Region validieren und neu starten sowie die Netzwerkadressen, die zum Zugriff auf Ihre Anwendung verwendet werden, neu konfigurieren, um auf die sekundäre Region zu verweisen.

Nach einem Failover von der primären Region zur sekundären Region wird die sekundäre Region zur primären primären Region. Nachdem der Ausfall oder die Katastrophe behoben wurde, können Sie einen Failback starten, um die Replikation von der ursprünglichen sekundären Region (der primären primären Region) zur ursprünglichen primären Region zu starten. Sie können den Vorgang optional wiederholen, um die Arbeitslast wieder in die ursprüngliche primäre Region zu verschieben.

Der Failback-Prozess umfasst die folgenden Aufgaben:

  1. Konfigurieren Sie die Replikation zwischen der neuen primären Region und der ursprünglichen primären Region.

    • Das ursprüngliche sekundäre Laufwerk ist jetzt das neue primäre Laufwerk und Sie konfigurieren es so, dass es auf ein neues sekundäres Laufwerk in der ursprünglichen primären Region repliziert wird.
    • Sie können eine neue Ressourcenrichtlinie für Konsistenzgruppen in der neuen primären Region erstellen, sodass die neuen primären Laufwerke (die ursprünglichen sekundären Laufwerke) konsistent in einer neuen Gruppe von sekundären Laufwerken in der ursprünglichen primären Region replizieren können.
  2. (Optional) Nach der ersten Replikation können Sie den Failover-Prozess wiederholen, um die Arbeitslast auf die ursprüngliche primäre Region zurückzugeben.

Laufwerksverschlüsselung

Primäre und sekundäre Laufwerke unterstützen keine vom Kunden bereitgestellten Verschlüsselungsschlüssel (CSEK). Verwenden Sie stattdessen von Google verwaltete Verschlüsselungsschlüssel oder vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK). Wenn Sie CMEK auf dem primären Laufwerk verwenden, müssen Sie CMEK auch auf dem sekundären Laufwerk verwenden. Sie können auf beiden Laufwerken unterschiedliche CMEKs verwenden.

Anpassung des sekundären Laufwerks

Wenn Sie ein sekundäres Laufwerk erstellen, werden die Attribute des primären Laufwerks übernommen, z. B. die Beschreibung, der Laufwerkstyp und Labels. Wenn das primäre Laufwerk ein Bootlaufwerk ist, übernimmt das sekundäre Laufwerk die Bootkonfiguration des primären Laufwerks. Die Bootkonfiguration enthält Informationen zur Architektur des Betriebssystems (OS), zu Betriebssystemlizenzen und zu deren Gastbetriebssystem-Features.

Sie können bestimmte Attribute des sekundären Laufwerks so ändern, dass sie sich vom primären Laufwerk unterscheiden. Beispielsweise müssen das primäre und das sekundäre Laufwerk die gleiche Größe und denselben Verschlüsselungsschlüssel haben. Sie können dem sekundären Laufwerk jedoch zusätzliche Labels zuweisen.

Für Bootlaufwerke können Sie zusätzliche Sicherheits- oder Netzwerkoptionen auf dem sekundären Laufwerk aktivieren, indem Sie zusätzliche Features des Gastbetriebssystems angeben. Sie können jedoch keine Gastbetriebssystem-Features des primären Laufwerks entfernen. Compute Engine führt die neuen Features mit den vorhandenen Features des Gastbetriebssystems des primären Laufwerks zusammen.

Beispiel

Angenommen, Sie haben ein Bootlaufwerk mit dem Namen disk-1 und den folgenden Gastbetriebssystem-Features: [GVNIC, UEFI_COMPATIBLE].

Wenn Sie ein sekundäres Laufwerk aus disk-1 erstellen, können Sie nur zusätzliche Features angeben. Die Features UEFI_COMPATIBLE und GVNIC können nicht entfernt werden. Wenn Sie daher beim Erstellen des sekundären Laufwerks MULTI_IP_SUBNET angeben, wird das neue Feature mit dem des primären Laufwerks zusammengeführt. Die resultierenden Gastbetriebssystem-Features für das sekundäre Laufwerk sind also GVNIC, UEFI_COMPATIBLE und MULTI_IP_SUBNET.

Informationen zum Anpassen eines sekundären Laufwerks finden Sie unter Benutzerdefiniertes sekundäres Laufwerk erstellen.

PD Async Replication und regionale nichtflüchtige Speicher

Sie können die asynchrone PD-Replikation mit regionalen nichtflüchtigen Speichern verwenden, um Hochverfügbarkeit (HA) und Notfallwiederherstellung (DR) zu erreichen.

Regionale nichtflüchtige Speicher können in einem Paar asynchroner PD-Replikation als primäres Laufwerk und/oder sekundäres Laufwerk verwendet werden. Ein Laufwerkpaar ist ein primäres Laufwerk, das auf ein sekundäres Laufwerk repliziert wird.

Wenn ein regionales Laufwerk als primäres Laufwerk verwendet wird, wird die Replikation nicht unterbrochen, wenn eine der Zonen des primären Laufwerks ausfällt. Das regionale primäre Laufwerk wird weiterhin von der fehlerfreien Zone auf das sekundäre Laufwerk repliziert.

Wenn ein regionales Laufwerk als sekundäres Laufwerk verwendet wird, wird die Replikation pausiert, wenn eine der Zonen des sekundären Laufwerks ausfällt. In diesem Fall fährt die Replikation nicht mit der fehlerfreien Zone des sekundären Laufwerks fort. Die Verwendung regionaler Laufwerke als sekundäre Laufwerke kann Ihre Arbeitslast jedoch für ein zonenübergreifendes HA bei einem Failover vorbereiten, wenn das sekundäre Laufwerk zum neuen primären Laufwerk wird.

Beschränkungen

  • Die PD Async Replication wird nur für ausgeglichenen nichtflüchtigen SSD-Speicher (Persistent Disk) unterstützt.
  • Schreibgeschützte Laufwerke und Laufwerke für mehrere Autoren werden nicht unterstützt.
  • Laufwerke können eine maximale Größe von 5 TiB haben.
  • Die PD Async Replication unterstützt 100 Laufwerkpaare in jedem Regionspaar pro Projekt.

  • Die PD Async Replication unterstützt eine maximale Anzahl von Laufwerkpaaren in jedem Regionspaar pro Projekt. Die maximale Anzahl von Laufwerkpaaren variiert je nach Regionspaar. In einem bestimmten Projekt kann project-1 beispielsweise bis zu 100 Laufwerkspaare im Iowa-Oregon-Regionspaar haben. project-1 kann auch bis zu 100 Laufwerkpaare im Regionspaar Belgien-Frankfurt haben.

Unterstützte Regionspaare

Die asynchrone Replikation von nichtflüchtiger Speichern unterstützt die Replikation zwischen bestimmten Google Cloud-Regionen. Die Replikation kann auf und von Laufwerken in jeder Region in einem Regionspaar erfolgen.

In der folgenden Tabelle sind die unterstützten Regionenpaare von PD Async Replication aufgeführt, d. h. jede unterstützte Region und die verfügbaren sekundären Regionen.

Region Verfügbare sekundäre Regionen
asia-east1 (Bezirk Changhua, Taiwan) asia-southeast1 (Jurong West, Singapur)
asia-east2 (HongKong, APAC) asia-southeast1 (Jurong West, Singapur)
asia-northeast1 (Tokio, Japan) asia-northeast2 (Osaka, Japan)
asia-northeast2 (Osaka, Japan) asia-northeast1 (Tokio, Japan)
asia-south1 (Mumbai, Indien) asia-south2 (Delhi, Indien)
asia-south2 (Delhi, Indien) asia-south1 (Mumbai, Indien)
asia-southeast1 (Jurong West, Singapur) asia-east1 (Bezirk Changhua, Taiwan)
asia-east2 (HongKong, APAC)
australia-southeast1 (Sydney, Australien) australia-southeast2 (Melbourne, Australien)
australia-southeast2 (Melbourne, Australien) australia-southeast1 (Sydney, Australien)
europe-southwest1 (Madrid, Spanien) europe-west1 (St. Ghislain, Belgien)
europe-west1 (St. Ghislain, Belgien) europe-southwest1 (Madrid, Spanien)
europe-west2 (London, England)
europe-west3 (Frankfurt, Deutschland)
europe-west4 (Eemshaven, Niederlande)
europe-west9 (Paris, Frankreich)
europe-west2 (London, England) europe-west1 (St. Ghislain, Belgien)
europe-west4 (Eemshaven, Niederlande)
europe-west3 (Frankfurt, Deutschland) europe-west1 (St. Ghislain, Belgien)
europe-west4 (Eemshaven, Niederlande)
europe-west8 (Mailand, Italien)
europe-west10 (Berlin, Deutschland)
europe-west4 (Eemshaven, Niederlande) europe-west1 (St. Ghislain, Belgien)
europe-west2 (London, England)
europe-west3 (Frankfurt, Deutschland)
europe-west6 (Zürich, Schweiz)
europe-west6 (Zürich, Schweiz) europe-west4 (Eemshaven, Niederlande)
europe-west8 (Mailand, Italien) europe-west12 (Turin, Italien)
europe-west3 (Frankfurt, Deutschland)
europe-west9 (Paris, Frankreich) europe-west1 (St. Ghislain, Belgien)
europe-west10 (Berlin, Deutschland) europe-west3 (Frankfurt, Deutschland)
europe-west12 (Turin, Italien) europe-west8 (Mailand, Italien)
northamerica-northeast1 (Montréal, Québec) us-east1 (Moncks Corner, South Carolina)
us-central1 (Council Bluffs, Iowa) us-east1 (Moncks Corner, South Carolina)
us-east4 (Ashburn, Virginia)
us-east5 (Columbus, Ohio)
us-west1 (The Dalles, Oregon)
us-east1 (Moncks Corner, South Carolina) us-central1 (Council Bluffs, Iowa)
northamerica-northeast1 (Montréal, Québec)
us-east4 (Ashburn, Virginia) us-central1 (Council Bluffs, Iowa)
us-east5 (Columbus, Ohio) us-central1 (Council Bluffs, Iowa)
us-west1 (The Dalles, Oregon) us-central1 (Council Bluffs, Iowa)
us-west2 (Los Angeles, Kalifornien)
us-west2 (Los Angeles, Kalifornien) us-west1 (The Dalles, Oregon)

Leistung

Das Recovery Point Objective (RPO) oder die Zeitverzögerung, wann Daten am sekundären Standort verfügbar sind, hängt von den Laufwerksänderungsraten ab. Bei PD Async Replication werden in der Regel Daten mit einem Ziel-RPO von einer Minute repliziert, bis zu 250 MB komprimierter geänderter Blöcke pro Minute, wobei Laufwerkblöcke mit einer Granularität von 4 KB repliziert werden. Wenn ein bestimmter Block zwischen Replikationsereignissen mehrmals geändert wird, wird nur die letzte Änderung auf das sekundäre Laufwerk repliziert. Bei höheren Laufwerksänderungsraten kann ein RPO größer als eine Minute sein. RPO ist nicht konfigurierbar.

In den folgenden Szenarien kann RPO eine Minute überschreiten:

  • Wenn die Laufwerksreplikation beginnt. Während der ersten Replikation repliziert die PD Async Replication alle verwendeten Blöcke auf dem primären Laufwerk auf das sekundäre Laufwerk. Die Erstreplikation ist abgeschlossen, wenn der Messwert disk/async_replication/time_since_last_replication in Cloud Monitoring verfügbar ist.
  • Wenn die Änderungsrate des Laufwerks größer als 250 MB komprimierter geänderter Blöcke pro Minute ist. Nach einem Anstieg der Laufwerkänderungen kann der RPO für spätere Replikationszyklen eine Minute überschreiten, während die Replikation aufholt.
  • Wenn Sie ein Laufwerk von einer VM trennen oder eine VM neu starten, während das Laufwerk repliziert wird. Bei Laufwerken, die von einer VM getrennt werden, wird der RPO-Wert für kurze Zeit möglicherweise bis zu fünf Minuten erhöht.

Informationen zum Anzeigen des RPO für Ihre Laufwerke finden Sie unter Leistungsmesswerte für asynchrone Replikation eines nichtflüchtigen Speichers.

Das Ziel der Wiederherstellungszeit (RTO) während des Failover hängt von der Zeit ab, die für die verschiedenen Aufgaben erforderlich ist, die mit dem Failover einer Arbeitslast in eine neue Region verbunden sind. Aufgaben wie das Beenden der Replikation und das Anhängen von Laufwerken an VMs in der sekundären Region sollten nur wenige Minuten dauern. Sie können den RTO-Wert beschleunigen, indem Sie dafür sorgen, dass VMs in der sekundären Region ausgeführt werden, damit bei einem Failover nicht auf den Start der VMs gewartet werden muss.

Nächste Schritte