Prinsip ini dalam pilar keandalan dari Google Cloud Architecture Framework memberikan rekomendasi untuk membantu Anda mendesain dan menjalankan pengujian untuk pemulihan dari kehilangan data.
Prinsip ini relevan dengan area fokus pembelajaran keandalan.
Ringkasan prinsip
Untuk memastikan sistem Anda dapat pulih dari situasi saat data hilang atau rusak, Anda perlu menjalankan pengujian untuk skenario tersebut. Kejadian kehilangan data mungkin disebabkan oleh bug software atau beberapa jenis bencana alam. Setelah peristiwa tersebut, Anda perlu memulihkan data dari cadangan dan mengaktifkan kembali semua layanan menggunakan data yang baru dipulihkan.
Sebaiknya gunakan tiga kriteria untuk menilai keberhasilan atau kegagalan jenis pengujian pemulihan ini: integritas data, batas waktu pemulihan (RTO), dan toleransi jumlah data yang hilang (RPO). Untuk mengetahui detail tentang metrik RTO dan RPO, lihat Dasar-dasar perencanaan DR.
Tujuan pengujian pemulihan data adalah untuk memverifikasi secara berkala bahwa organisasi Anda dapat terus memenuhi persyaratan kelangsungan bisnis. Selain mengukur RTO dan RPO, pengujian pemulihan data harus mencakup pengujian seluruh stack aplikasi dan semua layanan infrastruktur penting dengan data yang dipulihkan. Hal ini diperlukan untuk mengonfirmasi bahwa seluruh aplikasi yang di-deploy berfungsi dengan benar di lingkungan pengujian.
Rekomendasi
Saat Anda mendesain dan menjalankan pengujian untuk memulihkan dari kehilangan data, pertimbangkan rekomendasi di subbagian berikut.
Memverifikasi konsistensi pencadangan dan menguji proses pemulihan
Anda perlu memverifikasi bahwa pencadangan berisi snapshot data yang konsisten dan dapat digunakan yang dapat Anda pulihkan untuk segera mengaktifkan kembali aplikasi. Untuk memvalidasi integritas data, siapkan pemeriksaan konsistensi otomatis untuk dijalankan setelah setiap pencadangan.
Untuk menguji pencadangan, pulihkan di lingkungan non-produksi. Untuk memastikan pencadangan Anda dapat dipulihkan secara efisien dan data yang dipulihkan memenuhi persyaratan aplikasi, simulasikan skenario pemulihan data secara berkala. Dokumentasikan langkah-langkah untuk pemulihan data, dan latih tim Anda untuk menjalankan langkah-langkah tersebut secara efektif selama kegagalan.
Menjadwalkan pencadangan rutin dan sering
Untuk meminimalkan kehilangan data selama pemulihan dan memenuhi target RPO, Anda harus memiliki cadangan terjadwal secara rutin. Tetapkan frekuensi pencadangan yang sesuai dengan RPO Anda. Misalnya, jika RPO Anda adalah 15 menit, jadwalkan pencadangan agar berjalan minimal setiap 15 menit. Optimalkan interval pencadangan untuk mengurangi risiko kehilangan data.
Gunakan alat Google Cloud seperti Cloud Storage, pencadangan otomatis Cloud SQL, atau pencadangan Spanner untuk menjadwalkan dan mengelola pencadangan. Untuk aplikasi penting, gunakan solusi pencadangan yang hampir terus-menerus seperti pemulihan point-in-time (PITR) untuk Cloud SQL atau pencadangan inkremental untuk set data besar.
Menentukan dan memantau RPO
Tetapkan RPO yang jelas berdasarkan kebutuhan bisnis Anda, dan pantau kepatuhan terhadap RPO. Jika interval pencadangan melebihi RPO yang ditentukan, gunakan Cloud Monitoring untuk menyiapkan pemberitahuan.
Memantau kondisi pencadangan
Gunakan Google Cloud Layanan pencadangan dan DR atau alat serupa untuk melacak kondisi pencadangan Anda dan mengonfirmasi bahwa pencadangan tersebut disimpan di lokasi yang aman dan andal. Pastikan cadangan direplikasi di beberapa region untuk ketahanan tambahan.
Merencanakan skenario di luar pencadangan
Gabungkan pencadangan dengan strategi pemulihan dari bencana seperti penyiapan failover aktif-aktif atau replikasi lintas region untuk meningkatkan waktu pemulihan dalam kasus ekstrem. Untuk informasi selengkapnya, lihat Panduan perencanaan pemulihan dari bencana (disaster recovery).