Synchrone Laufwerksreplikation


Regionale Persistent Disk und Hyperdisk mit ausgeglichener Hochverfügbarkeit sind Speicheroptionen, mit denen Sie Hochverfügbarkeitsdienste in Compute Engine implementieren können. Regionaler nichtflüchtiger Speicher und Hyperdisk mit ausgeglichener Hochverfügbarkeit replizieren Daten synchron zwischen zwei Zonen in derselben Region und sorgen für Hochverfügbarkeit (HA) bei Laufwerksdaten für bis zu einen Zonenausfall.

Regionale nichtflüchtige Speicher- und Hyperdisk mit ausgeglichenen Hochverfügbarkeits-Volumes wurden für Arbeitslasten entwickelt, die ein niedrigeres Recovery Point Objective (RPO) und Recovery Time Objective (RTO) erfordern. Weitere Informationen zu RPO und RTO finden Sie unter Grundlagen der Planung der Notfallwiederherstellung.

Regionale nichtflüchtige Speicher und Hyperdisk mit ausgeglichenen Hochverfügbarkeits-Volumes sind für die Zusammenarbeit mit regional verwalteten Instanzgruppen konzipiert.

Dieses Dokument gibt einen Überblick darüber, wie Hochverfügbarkeitsdienste mit regionalem nichtflüchtigen Speicher und Hyperdisk mit ausgeglichenen Hochverfügbarkeits-Volumes aufgebaut werden können.

Wenn Sie regionalen nichtflüchtigen Speicher oder Hyperdisk mit ausgeglichenen Hochverfügbarkeits-Volumes verwenden, müssen Sie die verschiedenen Optionen zur Erhöhung der Dienstverfügbarkeit sowie Kosten, Leistung und Ausfallsicherheit für verschiedene Dienstarchitekturen vergleichen.

Synchrone Laufwerksreplikation

Ein regionaler nichtflüchtiger Speicher oder Hyperdisk mit ausgeglichenem Hochverfügbarkeits-Volume (Vorschau), auch als repliziertes Laufwerk bezeichnet, hat eine primäre und eine sekundäre Zone innerhalb ihrer Region, in der Laufwerksdaten gespeichert werden:

  • Die primäre Zone ist die gleiche Zone, in der sich die Compute-Instanz befindet, an die Sie das Laufwerk anhängen.
  • Die sekundäre Zone ist eine alternative Zone Ihrer Wahl innerhalb derselben Region.

Compute Engine verwaltet Replikate Ihres Laufwerks in beiden Zonen. Wenn Sie Daten auf das Laufwerk schreiben, repliziert Compute Engine diese Daten synchron auf den Laufwerkreplikaten in beiden Zonen, um HA zu gewährleisten. Die Daten jedes zonalen Replikats sind auf mehrere physische Maschinen innerhalb der Zone verteilt, um Langlebigkeit zu gewährleisten. Zonale Replikate gewährleisten, dass die Daten des Speichers verfügbar bleiben, und bieten Schutz vor temporären Ausfällen in einer der Laufwerkszonen.

Replikatstatus für zonale Replikate

Der Status des Laufwerkreplikats für einen regionalen nichtflüchtigen Speicher oder Hyperdisk mit ausgeglichener Hochverfügbarkeit (Vorschau) zeigt den Status eines zonalen Replikats im Vergleich zum Inhalt des Laufwerks an. Zonale Replikate für Ihre Laufwerke haben immer einen der folgenden Status für das Laufwerkreplikat:

  • Synchronisiert: Das Replikat ist verfügbar, empfängt synchron alle auf dem Laufwerk ausgeführten Schreibvorgänge und ist mit allen Daten auf dem Laufwerk auf dem neuesten Stand.
  • Wird aktualisiert: Das Replikat ist verfügbar, erfasst jedoch weiterhin die Daten auf dem Laufwerk vom anderen Replikat.
  • Nicht synchronisiert: Das Replikat ist vorübergehend nicht verfügbar und ist nicht mit den Daten auf dem Laufwerk synchronisiert.

Informationen zum Prüfen und Verfolgen des Replikatstatus Ihrer zonalen Replikate finden Sie unter Replikatstatus des Laufwerks überwachen.

Replikationsstatus für synchron replizierte Laufwerke

Je nach Status der einzelnen zonalen Replikate kann dasregionale nichtflüchtige Speicher- oder Hyperdisk mit ausgeglichenem Hochverfügbarkeits-Volume (Vorschau) einen der folgenden Replikationsstatus haben:

  • Vollständig repliziert: Replikate in beiden Zonen sind verfügbar und werden mit den neuesten Laufwerksdaten synchronisiert.
  • Wird aktualisiert: Die zonalen Replikate sind verfügbar, aber eines der zonalen Replikate wird mit den neuesten Laufwerksdaten aktualisiert.
  • Eingeschränkt: Eines der zonalen Replikate hat aufgrund eines Fehlers oder eines Ausfalls den Status out of sync.

Wenn der Laufwerk-Replikationsstatus catching up oder degraded lautet, wird eines der zonalen Replikate nicht mit allen Daten aktualisiert. Jeder Ausfall während dieser Zeit in der Zone des fehlerfreien Replikats führt zu einer Nichtverfügbarkeit des Laufwerks, bis die fehlerfreie Replikatzone wiederhergestellt wurde.

Wenn Ihr regionales nichtflüchtiges Speicher- oder Hyperdisk mit ausgeglichener Hochverfügbarkeits-Volume den Rückstand aufholt, beginnt Google Cloud mit der Reparatur des zonalen Replikats, das aktualisiert wird. Google empfiehlt, dass Sie warten, bis das betroffene zonale Replikat mit den Daten auf dem Laufwerk aktualisiert wurde. Der Status wechselt dann zu Synced. Nachdem das zonale Replikat dann in den Status „Synchronisiert“ gewechselt ist, ändert sich der Status des replizierten Laufwerks wieder in den Status Fully replicated.

Wenn das replizierte Laufwerk über einen längeren Zeitraum den Status catching up oder degraded hat und die RPO-Anforderungen Ihres Unternehmens nicht erfüllt, empfehlen wir Ihnen, Snapshots das primäre Replikat auf eine der folgenden Arten zu erstellen:

  • Geplante Snapshots aktivieren.
  • Erstellen Sie einen manuellen Snapshot Ihres regionalen nichtflüchtigen Speichers oder Hyperdisk mit ausgeglichenem Hochverfügbarkeitslaufwerk.

Nachdem Sie einen Snapshot erstellt haben, können Sie mit diesem Snapshot als Quelle ein neues regionales nichtflüchtiges Speicherlaufwerk oder Hyperdisk mit ausgeglichenem Hochverfügbarkeitslaufwerk erstellen. Dadurch wird der Snapshot auf dem neuen Laufwerk wiederhergestellt. Das neue Laufwerk beginnt auch in einem vollständig replizierten Zustand mit fehlerfreier Datenreplikation.

Informationen zum Prüfen des Replikationsstatus Ihres regionalen nichtflüchtigen Speicher oder Hyperdisk mit ausgeglichenem Hochverfügbarkeitslaufwerk finden Sie unterReplikationsstatus von Laufwerken bestimmen.

Prüfpunkt zur Replikatwiederherstellung

Ein Prüfpunkt zur Replikatwiederherstellung ist ein Attribut für Speicher, das den neuesten absturzsicheren Zeitpunkt eines vollständig replizierten Laufwerks darstellt. Compute Engine erstellt automatisch einen einzelnen Prüfpunkt zur Replikatwiederherstellung für jedes replizierte Laufwerk und verwaltet diesen. Wenn ein Laufwerk vollständig repliziert wird, aktualisiert Compute Engine den Prüfpunkt etwa alle 10 Minuten, um sicherzustellen, dass der Prüfpunkt aktuell bleibt. Wenn der Laufwerk-Replikationsstatus degraded lautet, können Sie in Compute Engine einen Standard-Snapshot aus dem Replikat-Wiederherstellungsprüfpunkt dieses Laufwerks erstellen. Der resultierende Standard-Snapshot erfasst die Daten aus der neuesten absturzsicheren Version des vollständig replizierten Laufwerks.

In seltenen Fällen, wenn das Laufwerk beeinträchtigt ist, kann auch das zonale Replikat, das mit den neuesten Laufwerksdaten synchronisiert wurde, ausfallen, bevor das nicht mehr synchronisierte Replikat aktualisiert wurde. Sie können das Anhängen Ihres Laufwerks an Compute-Instanzen in keiner der Zonen erzwingen. Das replizierte Laufwerk ist nicht mehr verfügbar und Sie müssen die Daten auf ein neues Laufwerk migrieren. Wenn in einem solchen Fall keine Standard-Snapshots für Ihr Laufwerk verfügbar sind, können Sie die Laufwerksdaten möglicherweise trotzdem aus dem unvollständigen Replikat wiederherstellen, indem Sie einen Standard-Snapshot verwenden, der aus dem Prüfpunkt zur Replikatwiederherstellung erstellt wurde.

Compute Engine erstellt automatisch die Prüfpunkte zur Replikatwiederherstellung für alle bereitgestellten regionalen nichtflüchtigen Speicher oder Hyperdisk mit ausgeglichenem Hochverfügbarkeits-Volume (Vorschau). Für die Erstellung dieser Prüfpunkte fallen keine zusätzlichen Gebühren an. Für die Erstellung von Snapshots und Compute-Instanzen fallen jedoch entsprechende Speichergebühren an, wenn Sie diese Prüfpunkte verwenden, um Ihr repliziertes Laufwerk in funktionierende Zonen zu migrieren.

Daten von replizierten Laufwerken mithilfe eines Prüfpunkts zur Replikatwiederherstellung wiederherstellen.

Repliziertes Laufwerk-Failover

Bei einem Ausfall in einer Zone kann nicht mehr auf die Zone zugegriffen werden und die Compute-Instanz in dieser Zone kann keine Lese- oder Schreibvorgänge auf dem Laufwerk ausführen. Damit die Instanz weiterhin Lese- und Schreibvorgänge auf dem replizierten Laufwerk ausführen kann, ermöglicht Compute Engine die Migration von Laufwerksdaten in die andere Zone, in der das Laufwerk ein Replikat hat. Dieser Vorgang wird als failover bezeichnet.

Beim Failover wird das zonale Replikat von der Instanz in der betroffenen Zone getrennt und dann an eine neue Instanz in der sekundären Zone angehängt. Compute Engine repliziert die Daten auf Ihrem Laufwerk synchron in die sekundäre Zone, um bei einem Ausfall eines einzelnen Replikats einen schnellen Failover sicherzustellen.

Failover durch anwendungsspezifische regionale Steuerungsebene

Die anwendungsspezifische regionale Steuerungsebene ist kein Google Cloud-Dienst. Wenn Sie HA-Dienstarchitekturen entwerfen, müssen Sie eine eigene anwendungsspezifische regionale Steuerungsebene erstellen. Diese Steuerungsebene der Anwendung entscheidet, an welche Instanz das replizierte Laufwerk angehängt sein muss und welche Instanz die aktuelle primäre Instanz ist.

Wenn ein Fehler in der primären Instanz oder Datenbank des replizierten Laufwerks erkannt wird, kann die anwendungsspezifische regionale Steuerungsebene Ihrer HA-Dienstarchitektur automatisch einen Failover zur Standby-Instanz in der sekundären Zone initiieren. Während des Failovers hängt die anwendungsspezifische regionale Steuerungsebene das replizierte Laufwerk wieder an die Standby-Instanz in der sekundären Zone an. Compute Engine leitet dann den gesamten Traffic anhand von Signalen der Systemdiagnose an diese Instanz weiter.

Die Failover-Gesamtlatenz ohne die Fehlererkennungszeit ist die Summe der folgenden Latenzen:

  • Weniger als 1 Minute, um ein repliziertes Laufwerk an eine Standby-Instanz anzuhängen
  • Zeit, die für die Initialisierung der Anwendung und die Wiederherstellung nach einem Absturz erforderlich ist

Weitere Informationen finden Sie unter Informationen zur anwendungsspezifischen regionalen Steuerungsebene.

Auf der Seite Bausteine der Notfallwiederherstellung werden die Bausteine behandelt, die derzeit in Compute Engine verfügbar sind.

Failover durch erzwungenes Anhängen

Einer der Vorteile von regionalen nichtflüchtigen Speicher und Hyperdisk mit ausgeglichener Hochverfügbarkeit (Vorschau) ist, dass im unwahrscheinlichen Fall eines Zonenausfalls Sie manuell einen Failover Ihrer Arbeitslast in eine andere Zone durchführen können. Wenn die ursprüngliche Zone ausfällt, können Sie den Trennvorgang des Speichers erst abschließen, wenn das zonale Replikat wiederhergestellt wurde. In diesem Szenario müssen Sie möglicherweise das sekundäre zonale Replikat an eine neue Compute-Instanz anhängen, ohne das primäre zonale Replikat von der primären Instanz zu trennen. Dieser Vorgang wird als erzwungenes Anhängen bezeichnet.

Wenn die Compute-Instanz in der primären Zone nicht mehr verfügbar ist, können Sie das Anhängen des Laufwerks an eine Instanz in der sekundären Zone erzwingen. Dafür müssen Sie einen der folgenden Schritte ausführen:

  • Starten Sie eine weitere Compute-Instanz in derselben Zone wie das replizierte Laufwerk, dessen Anhängen Sie erzwingen möchten.
  • Halten Sie in dieser Zone eine Hot-Standby-Compute-Instanz verfügbar. Ein Hot-Standby ist eine ausgeführte Instanz, die mit der Instanz in der primären Zone identisch ist. Die beiden Instanzen haben dieselben Daten.

Compute Engine führt den Vorgang zum erzwungenen Anhängen in weniger als einer Minute aus. Das gesamte Recovery Time Objective (RTO) hängt nicht nur vom Speicher-Failover (dem erzwungenen Anhängen des replizierten Speichers), sondern auch von anderen Faktoren ab, darunter:

  • Ob Sie zuerst eine sekundäre Instanz erstellen müssen
  • Zeitspanne, die das zugrunde liegende Dateisystem benötigt, um ein im "Hot"-Verfahren angehängtes Laufwerk zu erkennen
  • Wiederherstellungszeit der entsprechenden Anwendungen

Weitere Informationen zum Failover Ihrer Compute-Instanz mit erzwungenem Anhängen finden Sie unter Failover für das replizierte Laufwerk mit force-attach.

Regionale nichtflüchtige Speicher und Hyperdisk mit ausgeglichener Hochverfügbarkeit bevorzugen die Arbeitslastverfügbarkeit. Daraus ergeben sich Kompromisse beim Datenschutz für den unwahrscheinlichen Fall, dass beide Laufwerksreplikate gleichzeitig nicht mehr verfügbar sind. Weitere Informationen finden Sie unter Ausfälle bei replizierten Laufwerken verwalten.

Beschränkungen

In den folgenden Abschnitten werden die Einschränkungen aufgeführt, die für regionale nichtflüchtige Speicher und Hyperdisk mit ausgeglichener Hochverfügbarkeit (Vorschau) gelten.

Allgemeine Einschränkungen für replizierte Laufwerke

  • Sie können regionalen nichtflüchtigen Speicher nur an VMs anhängen, die den Maschinentyp E2, N1, N2 oder N2D verwenden.
  • Sie können Hyperdisk mit ausgeglichener Hochverfügbarkeit nur an unterstützte Maschinentypen anhängen.
  • Sie können einen regionalen nichtflüchtigen Speicher nicht aus einem Image oder von einem Laufwerk erstellen, das aus einem Image erstellt wurde.
  • Im schreibgeschützten Modus können Sie einen regionalen abgestimmten nichtflüchtigen Speicher an maximal 10 VM-Instanzen anhängen.
  • Die Mindestgröße eines regionalen nichtflüchtigen Standardspeichers beträgt 200 GiB.
  • Sie können nur die Größe eines regionalen nichtflüchtigen Speichers oderHyperdisk mit ausgeglichenem Hochverfügbarkeits-Volume erhöhen. Sie können die Größe nicht verringern.
  • Regionale nichtflüchtige Speicher- und Hyperdisk mit ausgeglichener Hochverfügbarkeits-Volumes haben unterschiedliche Leistungsmerkmale als die entsprechenden zonalen Laufwerke. Weitere Informationen finden Sie unter Blockspeicherleistung.
  • Wenn Sie einen replizierten Speicher durch Klonen eines zonalen Laufwerks erstellen, sind die beiden zonalen Replikate zum Zeitpunkt der Erstellung nicht komplett synchron. Nach der Erstellung können Sie den regionalen Laufwerkklon innerhalb von durchschnittlich 3 Minuten verwenden. Sie müssen jedoch möglicherweise einige Minuten warten, bevor das Laufwerk einen vollständig replizierten Zustand erreicht und das Recovery Point Objective (RPO) fast null ist. So prüfen Sie, ob das replizierte Laufwerk vollständig repliziert wurde

Einschränkungen für Prüfpunkte zur Replikatwiederherstellung

  • Ein Prüfpunkt zur Replikatwiederherstellung ist Teil der Gerätemetadaten und zeigt Ihnen keine Laufwerksdaten an. Sie können den Prüfpunkt nur dafür verwenden, einen Snapshot Ihres eingeschränkten Laufwerks zu erstellen. Nachdem Sie den Snapshot mit dem Prüfpunkt erstellt haben, können Sie die Daten mit dem Snapshot wiederherstellen.
  • Sie können Snapshots von einem Prüfpunkt zur Replikatwiederherstellung nur dann erstellen, wenn das Laufwerk eingeschränkt ist.
  • Compute Engine aktualisiert den Prüfpunkt zur Replikatwiederherstellung für das Laufwerk nur, wenn es vollständig repliziert wurde.
  • Compute Engine bewahrt nur einen einzigen Prüfpunkt zur Replikatwiederherstellung für ein Laufwerk und nur die neueste Version dieses Prüfpunkts auf.
  • Sie können nicht die genauen Erstellungs- und Aktualisierungszeitstempel eines Prüfpunkts zur Replikatwiederherstellung sehen.
  • Sie können einen Snapshot von Ihrem Prüfpunkt zur Replikatwiederherstellung nur mithilfe der Compute Engine API erstellen.

Nächste Schritte