Crea sistemi ad alta disponibilità tramite la ridondanza delle risorse

Last reviewed 2024-12-30 UTC

Questo principio del pilastro dell'affidabilità del Google Cloud Framework di architettura fornisce consigli per pianificare, creare e gestire la ridondanza delle risorse, che puoi aiutarti a evitare errori.

Questo principio è pertinente all'ambito dell'area di interesse dell'affidabilità.

Dopo aver deciso il livello di affidabilità di cui hai bisogno, devi progettare i sistemi in modo da evitare punti di errore singoli. Ogni componente critico del sistema deve essere replicato su più macchine, zone e regioni. Ad esempio, un database critico non può trovarsi in una sola regione e un server di metadati non può essere dipiegato in una sola zona o regione. In questi esempi, se si verifica un'interruzione nella sola zona o regione, il sistema presenta un'interruzione globale.

Consigli

Per creare sistemi ridondanti, tieni presenti i consigli riportati nelle seguenti sezioni.

Identifica i domini di errore e replica i servizi

Mappa i domini di errore del sistema, dalle singole VM alle regioni, e progetta la ridondanza tra i domini di errore.

Per garantire l'alta disponibilità, distribuisci e replica i servizi e le applicazioni in più zone e regioni. Configura il sistema per il failover automatico per assicurarti che i servizi e le applicazioni continuino a essere disponibili in caso di interruzioni a livello di zona o regione.

Per esempi di architetture multizona e multiregione, consulta Progettare un'infrastruttura affidabile per i carichi di lavoro in Google Cloud.

Rileva e risolvi i problemi tempestivamente

Monitora continuamente lo stato dei tuoi domini di errore per rilevare e risolvere rapidamente i problemi.

Puoi monitorare lo stato attuale dei Google Cloud servizi in tutte le regioni utilizzando la Google Cloud dashboard Stato del servizio. Puoi anche visualizzare gli incidenti pertinenti al tuo progetto utilizzando Personalized Service Health. Puoi utilizzare i bilanciatori del carico per rilevare lo stato delle risorse e instradare automaticamente il traffico ai backend integri. Per ulteriori informazioni, consulta la panoramica dei controlli di integrità.

Testare gli scenari di failover

Come per un'esercitazione antincendio, simula regolarmente gli errori per convalidare l'efficacia delle tue strategie di replica e failover.

Per ulteriori informazioni, consulta Simulare un'interruzione di servizio in una zona per un gruppo di istanze gestite a livello di regione e Simulare un errore di zona nei cluster regionali GKE.