Questo principio del pilastro dell'affidabilità del Google Cloud Architecture Framework fornisce consigli per aiutarti a progettare ed eseguire test per il recupero dalla perdita di dati.
Questo principio è pertinente all'area di interesse dell'apprendimento dell'affidabilità.
Panoramica dei principi
Per assicurarti che il sistema possa recuperare da situazioni in cui i dati vengono persi o danneggiati, devi eseguire test per questi scenari. Le istanze di perdita di dati potrebbero essere causate da un bug del software o da un qualche tipo di calamità naturale. Dopo questi eventi, devi ripristinare i dati dai backup e riavviare tutti i servizi utilizzando i dati appena ripristinati.
Ti consigliamo di utilizzare tre criteri per valutare il successo o l'errore di questo tipo di test di recupero: integrità dei dati, tempo di ripristino del servizio (RTO) e perdita dati tollerata (RPO). Per informazioni dettagliate sulle metriche RTO e RPO, consulta Nozioni di base sulla RE dati.
Lo scopo dei test di ripristino dei dati è verificare periodicamente che la tua organizzazione possa continuare a soddisfare i requisiti di continuità aziendale. Oltre a misurare RTO e RPO, un test di ripristino dei dati deve includere il test dell'intero stack di applicazioni e di tutti i servizi di infrastruttura critici con i dati ripristinati. Questo è necessario per verificare che l'intera applicazione di cui è stato eseguito il deployment funzioni correttamente nell'ambiente di test.
Consigli
Quando progetti ed esegui test per il recupero dalla perdita di dati, tieni in considerazione i consigli riportati nelle sezioni seguenti.
Verifica la coerenza del backup e testa le procedure di ripristino
Devi verificare che i backup contengano snapshot coerenti e utilizzabili dei dati che puoi ripristinare per rimettere immediatamente in servizio le applicazioni. Per convalidare l'integrità dei dati, configura i controlli di coerenza automatici da eseguire dopo ogni backup.
Per testare i backup, ripristinali in un ambiente non di produzione. Per assicurarti che i backup possano essere ripristinati in modo efficiente e che i dati ripristinati soddisfino i requisiti dell'applicazione, simula regolarmente scenari di recupero dei dati. Documenta la procedura di recupero dei dati e addestra i tuoi team a eseguirla in modo efficace in caso di errore.
Pianifica backup regolari e frequenti
Per ridurre al minimo la perdita di dati durante il ripristino e per raggiungere gli obiettivi RPO, è essenziale eseguire backup pianificati regolarmente. Stabilisci una frequenza di backup in linea con il tuo RPO. Ad esempio, se il tuo RPO è di 15 minuti, pianifica i backup in modo che vengano eseguiti almeno ogni 15 minuti. Ottimizza gli intervalli di backup per ridurre il rischio di perdita di dati.
Utilizza gli strumenti di Google Cloud come Cloud Storage, i backup automatici di Cloud SQL o i backup di Spanner per pianificare e gestire i backup. Per le applicazioni critiche, utilizza soluzioni di backup quasi continui come il recupero point-in-time (PITR) per Cloud SQL o i backup incrementali per set di dati di grandi dimensioni.
Definisci e monitora il RPO
Imposta un RPO chiaro in base alle esigenze della tua attività e monitora la conformità all'RPO. Se gli intervalli di backup superano il RPO definito, utilizza Cloud Monitoring per configurare gli avvisi.
Monitorare lo stato di integrità del backup
Utilizza Google Cloud Servizio di backup e RE o strumenti simili per monitorare lo stato dei backup e verificare che siano memorizzati in posizioni sicure e affidabili. Assicurati che i backup vengano replicati su più regioni per una maggiore resilienza.
Pianificare scenari oltre il backup
Combina i backup con strategie di ripristino di emergenza come le configurazioni di failover attivo-attivo o la replica tra regioni per migliorare i tempi di recupero in casi estremi. Per ulteriori informazioni, consulta la guida alla pianificazione del ripristino di emergenza.