Informazioni sulla replica sincrona dei dischi


I dischi permanenti regionali e Hyperdisk con alta disponibilità bilanciata sono opzioni di archiviazione che ti consentono di implementare servizi ad alta disponibilità (HA) in Compute Engine. La replica sincrona dei dati tra due zone nella stessa regione e l'alta disponibilità per i dati dei dischi fino a un errore circoscritto a una zona sono garantite dai dischi permanenti a livello di regione e da Hyperdisk Balanced.

I volumi ad alta disponibilità Hyperdisk Balanced e Regional Persistent Disk sono progettati per i carichi di lavoro che richiedono un RPO (Recovery Point Objective) e un RTO (Recovery Time Objective) inferiori. Per scoprire di più su RPO e RTO, consulta Nozioni di base sulla ripristino di emergenza recovery.

I volumi di dischi permanenti regionali e Hyperdisk con disponibilità elevata bilanciata sono studiati per funzionare con i gruppi di istanze gestite regionali.

Questo documento fornisce una panoramica su come creare servizi HA con i volumi Regional Persistent Disk e Hyperdisk Balanced High Availability.

Quando decidi di utilizzare i dischi permanenti a livello di area geografica o Hyperdisk Balanced High Availability, assicurati di confrontare le diverse opzioni per aumentare la disponibilità del servizio e i relativi costi, prestazioni e resilienza per le diverse architetture di servizio.

Informazioni sulla replica sincrona dei dischi

Un volume Hyperdisk bilanciato ad alta disponibilità (anteprima) o disco permanente regionale, chiamato anche disco replicato, ha una zona principale e una secondaria all'interno della regione in cui memorizza i dati del disco:

  • La zona principale è la stessa in cui si trova l'istanza di calcolo a cui colleghi il disco.
  • Zona secondaria è una zona alternativa a tua scelta all'interno della stessa regione.

Compute Engine gestisce le repliche del disco in entrambe queste zone. Quando scrivi dati sul disco, Compute Engine li replica in modo sincrono nelle repliche del disco in entrambe le zone per garantire l'HA. I dati di ogni replica zonale sono distribuiti su più macchine fisiche all'interno della zona per garantire la durabilità. Le repliche zonali assicurano che i dati del disco rimangano disponibili e offrono protezione contro interruzioni temporanee in una delle zone del disco.

Stato della replica per le repliche zonali

Lo stato della replica del disco per i dischi permanenti regionali o Hyperdisk bilanciato con disponibilità elevata (anteprima) mostra lo stato di una replica a livello di zona rispetto ai contenuti del disco. Le repliche a livello di zona per i tuoi dischi sono sempre in uno dei seguenti stati:

  • Sincronizzata: la replica è disponibile, riceve in modo sincrono tutte le scritture eseguite sul disco ed è aggiornata con tutti i dati sul disco.
  • Aggiornamento: la replica è disponibile, ma è ancora in fase di aggiornamento con i dati sul disco dell'altra replica.
  • Non sincronizzata: la replica è temporaneamente non disponibile e non è sincronizzata con i dati sul disco.

Per scoprire come controllare e monitorare gli stati delle repliche zonali, consulta Monitorare gli stati delle repliche dei dischi.

Stati di replica per i dischi con replica sincrona

A seconda dello stato delle singole repliche zonali, il volume Hyperdisk con disponibilità elevata bilanciata o del disco permanente a livello di regione (anteprima) può trovarsi in uno dei seguenti stati di replica:

  • Completamente replicato:le repliche in entrambe le zone sono disponibili e vengono sincronizzate con i dati più recenti del disco.
  • Aggiornamento: le repliche zonali sono disponibili, ma una delle repliche zonali sta recuperando i dati più recenti del disco.
  • Degradato:una delle repliche zonali ha lo stato out of sync a causa di un guasto o un'interruzione.

Se lo stato della replica del disco è catching up o degraded, una delle repliche a livello di zona non è aggiornata con tutti i dati. Qualsiasi interruzione durante questo periodo nella zona della replica sana comporta l'impossibilità di utilizzare il disco fino al ripristino della zona della replica sana.

Quando il volume Regional Persistent Disk o Hyperdisk Balanced High Availability è in fase di aggiornamento, Google Cloud inizia a riparare la replica zonale in fase di aggiornamento. Google consiglia di attendere che la replica zonale interessata raggiunga i dati sul disco, a quel punto il suo stato diventa Synced. Dopo che la replica a livello di zona passa allo stato sincronizzato, lo stato del disco replicato torna allo stato Fully replicated.

Se il disco replicato ha lo stato catching up o degraded per un periodo di tempo prolungato e non soddisfa i requisiti RPO della tua organizzazione, consigliamo di acquisire snapshot della replica principale in uno dei modi seguenti:

  • Attiva gli snapshot pianificati.
  • Crea uno snapshot manuale del disco permanente regionale o del disco Hyperdisk bilanciato con disponibilità elevata.

Dopo aver creato uno snapshot, puoi creare un nuovo disco regionale permanente o Hyperdisk bilanciato ad alta disponibilità utilizzando lo snapshot come origine. Lo snapshot viene ripristinato sul nuovo disco. Anche il nuovo disco inizia in uno stato completamente replicato con una replica dei dati corretta.

Per scoprire come controllare lo stato di replica del disco permanente regionale o Hyperdisk bilanciato con disponibilità elevata, consulta Determinare lo stato di replica dei dischi.

Checkpoint di recupero della replica

Un punto di controllo del recupero della replica è un attributo del disco che rappresenta il punto in tempo coerente con gli arresti anomali più recente di un disco completamente replicato. Compute Engine crea e gestisce automaticamente un singolo checkpoint di recupero della replica per ogni disco replicato. Quando un disco è completamente replicato, Compute Engine continua ad aggiornare il checkpoint ogni 10 minuti circa per assicurarsi che rimanga aggiornato. Quando lo stato di replica del disco è degraded, Compute Engine ti consente di creare uno snapshot standard dal checkpoint di recupero della replica del disco. Lo snapshot standard risultante acquisisce i dati dalla versione più recente del disco completamente replicato in caso di arresto anomalo.

In rari casi, quando il disco è in stato di degrado, anche la replica zonale sincronizzata con i dati più recenti del disco può non riuscire prima che la replica non sincronizzata venga aggiornata. Non potrai collegare forzatamente il disco alle istanze di calcolo in nessuna delle due zone. Il disco replicato diventa non disponibile e devi eseguire la migrazione dei dati su un nuovo disco. In questi scenari, se non sono disponibili snapshot standard per il tuo disco, potresti comunque riuscire a recuperare i dati del disco dalla replica incompleta utilizzando uno snapshot standard creato dal checkpoint di recupero della replica.

Compute Engine crea automaticamente i checkpoint di recupero delle repliche per ogni disco permanente regionale o Hyperdisk ad alta disponibilità bilanciata (anteprima) montato. La creazione di questi punti di controllo non comporta costi aggiuntivi. Tuttavia, ti verranno addebitati eventuali costi di archiviazione applicabili per la creazione di snapshot e istanze di calcolo quando utilizzi questi checkpoint per eseguire la migrazione del disco replicato alle zone di funzionamento.

Scopri di più su come ripristinare i dati dei dischi replicati utilizzando un checkpoint di recupero della replica.

Failover dei dischi replicati

In caso di interruzione in una zona, la zona diventa inaccessibile e l'istanza di calcolo al suo interno non può eseguire operazioni di lettura o scrittura sul proprio disco. Per consentire all'istanza di continuare a eseguire operazioni di lettura e scrittura per il disco replicato, Compute Engine consente la migrazione dei dati del disco all'altra zona in cui il disco ha una replica. Questo processo è noto come failover.

Il processo di failover prevede lo scollegamento della replica zonale dall'istanza nella zona interessata e il successivo collegamento della replica zonale a una nuova istanza nella zona secondaria. Compute Engine esegue la replica sincrona dei dati sul disco nella zona secondaria per garantire un rapido failover in caso di errore di una singola replica.

Failover in base al control plane regionale specifico dell'applicazione

Il piano di controllo regionale specifico per l'applicazione non è un servizio Google Cloud. Quando progetti architetture di servizi ad alta disponibilità, devi creare il tuo control plane regionale specifico per l'applicazione. Questo piano di controllo delle applicazioni decide a quale istanza deve essere collegato il disco replicato e quale istanza è l'istanza principale corrente.

Quando viene rilevato un errore nell'istanza o nel database principale del disco replicato, il piano di controllo regionale specifico per l'applicazione dell'architettura del servizio HA può avviare automaticamente il failover all' istanza di standby nella zona secondaria. Durante il failover, il piano di controllo regionale specifico per l'applicazione ricollega il disco replicato all'istanza in standby nella zona secondaria. Compute Engine indirizzerà quindi tutto il traffico a quell'istanza in base agli indicatori controllo di integrità.

La latenza complessiva del failover, escluso il tempo di rilevamento dell'errore, è la somma delle seguenti latenze:

  • Meno di 1 minuto per collegare un disco replicato a un'istanza di standby
  • Tempo necessario per l'inizializzazione dell'applicazione e il recupero in caso di arresto anomalo

Per ulteriori informazioni, consulta Informazioni sul piano di controllo regionale specifico per l'applicazione.

La pagina Componenti di base per il ripristino di emergenza descrive i componenti di base disponibili su Compute Engine.

Failover tramite collegamento forzato

Uno dei vantaggi di Regional Persistent Disk e Hyperdisk Balanced High Availability (anteprima) è che nell'improbabile caso di un'interruzione a livello di zona, puoi eseguire manualmente il failover del carico di lavoro in un'altra zona. Quando la zona originale è in stato di interruzione, non puoi completare l'operazione di scollegamento del disco finché la replica a livello di zona non viene ripristinata. In questo scenario, potrebbe essere necessario collegare la replica zonale secondaria a una nuova istanza di calcolo senza scollegare la replica zonale principale dall'istanza principale. Questa procedura è chiamata force-attach.

Quando l'istanza di calcolo nella zona principale non è disponibile, puoi collegare forzatamente il disco a un'istanza nella zona secondaria. Per eseguire questa operazione, devi svolgere una delle seguenti operazioni:

  • Avvia un'altra istanza di calcolo nella stessa zona del disco replicato che stai collegando forzatamente.
  • Mantieni un'istanza di calcolo hot standby in quella zona. Un'istanza in standby caldo è un'istanza in esecuzione identica a quella nella zona principale. Le due istanze hanno gli stessi dati.

Compute Engine esegue l'operazione di attacco forzato in meno di un minuto. L'RTO (Recovery Time Objective) totale dipende non solo dal failover dello spazio di archiviazione (l'attacco forzato del disco replicato), ma anche da altri fattori, tra cui:

  • Se devi prima creare un'istanza secondaria
  • Il tempo necessario al file system sottostante per rilevare un disco collegato a caldo
  • Il tempo di recupero delle applicazioni corrispondenti

Per ulteriori informazioni su come eseguire il failover dell'istanza di calcolo utilizzando force-attach, consulta Eseguire il failover del disco replicato utilizzando force-attach.

I dischi permanenti a livello di area geografica e Hyper-V con disponibilità elevata bilanciata favoriscono la disponibilità del carico di lavoro, il che significa che ci sono compromessi per la protezione dei dati nell'improbabile caso in cui entrambe le repliche del disco non siano disponibili contemporaneamente. Per saperne di più, consulta Gestire gli errori per i dischi replicati.

Limitazioni

Le sezioni seguenti elencano le limitazioni che si applicano ai dischi permanenti regionali e a Hyperdisk bilanciato con disponibilità elevata (anteprima).

Limitazioni generali per i dischi replicati

  • Messico, Osaka e Montréal hanno tre zone in uno o due data center fisici. Poiché i dati archiviati in queste regioni possono andare persi nell'improbabile caso in cui i data center vengano distrutti, potresti prendere in considerazione il backup dei dati business-critical in una seconda regione per una protezione dei dati maggiore.
  • È possibile collegare un disco permanente regionale solo alle macchine virtuali che utilizzano come machine family E2, N1, N2 e N2D.
  • Puoi collegare Hyperdisk bilanciato con disponibilità elevata solo ai tipi di macchine supportati.
  • Non puoi creare un Persistent Disk di una regione da un'immagine o da un disco creato da un'immagine.
  • Quando utilizzi la modalità di sola lettura, puoi collegare un Persistent Disk bilanciato regionale a un massimo di 10 istanze VM.
  • La dimensione minima di un Persistent Disk standard regionale è 200 GiB.
  • Puoi solo aumentare le dimensioni di un disco Persistent Disk o volume Hyperdisk bilanciato ad alta disponibilità; non puoi ridurle.
  • I volumi Hyperdisk e disco permanente regionale con disponibilità elevata bilanciata hanno caratteristiche di prestazioni diverse rispetto ai dischi zonali corrispondenti. Per ulteriori informazioni, consulta Rendimento dello spazio di archiviazione a blocchi.
  • Non puoi utilizzare un volume Hyperdisk bilanciato con disponibilità elevata in modalità multiwriter come disco di avvio.
  • Se crei un disco replicato clonando un disco a livello di zona, le due repliche a livello di zona non sono completamente sincronizzate al momento della creazione. Dopo la creazione, puoi utilizzare la copia del disco regionale in media entro 3 minuti. Tuttavia, potresti dover attendere decine di minuti prima che il disco raggiunga uno stato di replica completa e il Recovery Point Objective (RPO) sia vicino allo zero. Scopri come verificare se il disco replicato è completamente replicato.

Limitazioni per i checkpoint di recupero delle repliche

  • Un checkpoint di recupero della replica fa parte dei metadati del dispositivo e non mostra da solo i dati del disco. Puoi utilizzare il checkpoint solo come meccanismo per creare uno snapshot del disco in degrado. Dopo aver creato lo snapshot utilizzando il checkpoint, puoi utilizzarlo per ripristinare i dati.
  • Puoi creare snapshot da un checkpoint di recupero della replica solo quando il disco è in stato di degrado.
  • Compute Engine aggiorna il checkpoint di ripristino della replica del disco solo quando il disco è completamente replicato.
  • Compute Engine gestisce un solo checkpoint di recupero della replica per un disco e solo la versione più recente di questo checkpoint.
  • Non puoi visualizzare i timestamp esatti di creazione e aggiornamento di un checkpoint di recupero della replica.
  • Puoi creare uno snapshot dal checkpoint di recupero della replica solo utilizzando l'API Compute Engine.

Passaggi successivi