Halaman ini diterjemahkan oleh Cloud Translation API.

Melakukan pengujian untuk pemulihan dari kehilangan data

Last reviewed 2024-12-30 UTC

Prinsip dalam pilar keandalan Google Cloud Framework yang Dirancang dengan Baik ini memberikan rekomendasi untuk membantu Anda mendesain dan menjalankan pengujian untuk pemulihan dari kehilangan data.

Prinsip ini relevan dengan pembelajaran area fokus keandalan.

Ringkasan prinsip

Untuk memastikan bahwa sistem Anda dapat pulih dari situasi saat data hilang atau rusak, Anda perlu menjalankan pengujian untuk skenario tersebut. Kasus kehilangan data dapat disebabkan oleh bug software atau beberapa jenis bencana alam. Setelah peristiwa tersebut, Anda perlu memulihkan data dari cadangan dan mengaktifkan kembali semua layanan menggunakan data yang baru dipulihkan.

Sebaiknya gunakan tiga kriteria untuk menilai keberhasilan atau kegagalan jenis uji pemulihan ini: integritas data, batas waktu pemulihan (RTO), dan toleransi jumlah data yang hilang (RPO). Untuk mengetahui detail tentang metrik RTO dan RPO, lihat Dasar-dasar perencanaan DR.

Tujuan pengujian pemulihan data adalah untuk memverifikasi secara berkala bahwa organisasi Anda dapat terus memenuhi persyaratan kelangsungan bisnis. Selain mengukur RTO dan RPO, pengujian pemulihan data harus mencakup pengujian seluruh stack aplikasi dan semua layanan infrastruktur penting dengan data yang dipulihkan. Hal ini diperlukan untuk mengonfirmasi bahwa seluruh aplikasi yang di-deploy berfungsi dengan benar di lingkungan pengujian.

Rekomendasi

Saat mendesain dan menjalankan pengujian untuk pemulihan dari kehilangan data, pertimbangkan rekomendasi di subbagian berikut.

Memverifikasi konsistensi pencadangan dan menguji proses pemulihan

Anda harus memverifikasi bahwa cadangan Anda berisi snapshot data yang konsisten dan dapat digunakan yang dapat Anda pulihkan untuk segera mengaktifkan kembali aplikasi. Untuk memvalidasi integritas data, siapkan pemeriksaan konsistensi otomatis untuk dijalankan setelah setiap pencadangan.

Untuk menguji cadangan, pulihkan cadangan di lingkungan non-produksi. Untuk memastikan pencadangan Anda dapat dipulihkan secara efisien dan data yang dipulihkan memenuhi persyaratan aplikasi, simulasikan skenario pemulihan data secara rutin. Mendokumentasikan langkah-langkah pemulihan data, dan melatih tim Anda untuk menjalankan langkah-langkah tersebut secara efektif selama terjadi kegagalan.

Menjadwalkan pencadangan rutin dan sering

Untuk meminimalkan kehilangan data selama pemulihan dan memenuhi target RPO, Anda harus menjadwalkan pencadangan secara rutin. Tetapkan frekuensi pencadangan yang sesuai dengan RPO Anda. Misalnya, jika RPO Anda adalah 15 menit, jadwalkan pencadangan agar berjalan setidaknya setiap 15 menit. Optimalkan interval pencadangan untuk mengurangi risiko kehilangan data.

Gunakan Google Cloud alat seperti Cloud Storage, pencadangan otomatis Cloud SQL, atau pencadangan Spanner untuk menjadwalkan dan mengelola pencadangan. Untuk aplikasi penting, gunakan solusi pencadangan yang hampir berkelanjutan seperti pemulihan point-in-time (PITR) untuk Cloud SQL atau pencadangan inkremental untuk set data besar.

Menentukan dan memantau RPO

Tetapkan RPO yang jelas berdasarkan kebutuhan bisnis Anda, dan pantau kepatuhan terhadap RPO. Jika interval pencadangan melebihi RPO yang ditentukan, gunakan Cloud Monitoring untuk menyiapkan pemberitahuan.

Memantau kondisi pencadangan

Gunakan Google Cloud Layanan pencadangan dan DR atau alat serupa untuk melacak kondisi cadangan Anda dan mengonfirmasi bahwa cadangan tersebut disimpan di lokasi yang aman dan andal. Pastikan cadangan direplikasi di beberapa region untuk meningkatkan ketahanan.

Merencanakan skenario di luar pencadangan

Gabungkan pencadangan dengan strategi pemulihan dari bencana seperti penyiapan failover aktif-aktif atau replikasi lintas region untuk meningkatkan waktu pemulihan dalam kasus ekstrem. Untuk mengetahui informasi selengkapnya, lihat Panduan perencanaan pemulihan dari bencana (disaster recovery).

Sebelumnya

Lakukan pengujian untuk pemulihan dari kegagalan

Berikutnya

Lakukan postmortem secara menyeluruh