Pilar keandalan dalam Google Cloud Framework Arsitektur memberikan prinsip dan rekomendasi untuk membantu Anda mendesain, men-deploy, dan mengelola workload yang andal di Google Cloud.
Dokumen ini ditujukan untuk arsitek cloud, developer, engineer platform, administrator, dan engineer keandalan situs.
Keandalan adalah kemampuan sistem untuk secara konsisten menjalankan fungsi yang diinginkan dalam kondisi yang ditentukan dan mempertahankan layanan yang tidak terganggu. Praktik terbaik untuk keandalan mencakup redundansi, desain fault-tolerant, pemantauan, dan proses pemulihan otomatis.
Sebagai bagian dari keandalan, ketahanan adalah kemampuan sistem untuk bertahan dan pulih dari kegagalan atau gangguan yang tidak terduga, sekaligus mempertahankan performa. Google Cloud Fitur, seperti deployment multi-regional, pencadangan otomatis, dan solusi disaster recovery, dapat membantu Anda meningkatkan ketahanan sistem.
Keandalan penting bagi strategi cloud Anda karena banyak alasan, termasuk hal berikut:
- Periode nonaktif minimal: Periode nonaktif dapat menyebabkan hilangnya pendapatan, menurunnya produktivitas, dan kerusakan reputasi. Arsitektur yang tangguh dapat membantu memastikan sistem dapat terus berfungsi selama kegagalan atau pulih secara efisien dari kegagalan.
- Pengalaman pengguna yang ditingkatkan: Pengguna mengharapkan interaksi yang lancar dengan teknologi. Sistem yang tangguh dapat membantu mempertahankan performa dan ketersediaan yang konsisten, serta memberikan layanan yang andal bahkan saat permintaan tinggi atau masalah yang tidak terduga.
- Integritas data: Kegagalan dapat menyebabkan hilangnya data atau kerusakan data. Sistem yang tangguh menerapkan mekanisme seperti pencadangan, redundansi, dan replika untuk melindungi data dan memastikan data tetap akurat dan dapat diakses.
- Kelangsungan bisnis: Bisnis Anda mengandalkan teknologi untuk operasi penting. Arsitektur yang tangguh dapat membantu memastikan kelangsungan setelah kegagalan besar, yang memungkinkan fungsi bisnis berlanjut tanpa gangguan yang signifikan dan mendukung pemulihan yang cepat.
- Kepatuhan: Banyak industri memiliki persyaratan peraturan untuk ketersediaan sistem dan perlindungan data. Arsitektur yang tangguh dapat membantu Anda memenuhi standar ini dengan memastikan sistem tetap beroperasi dan aman.
- Biaya jangka panjang yang lebih rendah: Arsitektur yang tangguh memerlukan investasi awal, tetapi ketahanan dapat membantu mengurangi biaya dari waktu ke waktu dengan mencegah downtime yang mahal, menghindari perbaikan reaktif, dan memungkinkan penggunaan resource yang lebih efisien.
Pola pikir organisasi
Agar sistem Anda andal, Anda memerlukan rencana dan strategi yang mapan. Strategi ini harus mencakup pendidikan dan otoritas untuk memprioritaskan keandalan bersama dengan inisiatif lainnya.
Tetapkan ekspektasi yang jelas bahwa seluruh organisasi bertanggung jawab atas keandalan, termasuk pengembangan, pengelolaan produk, operasi, engineering platform, dan site reliability engineering (SRE). Bahkan grup yang berfokus pada bisnis, seperti pemasaran dan penjualan, dapat memengaruhi keandalan.
Setiap tim harus memahami target keandalan dan risiko aplikasi mereka. Tim harus bertanggung jawab atas persyaratan ini. Konflik antara keandalan dan pengembangan fitur produk reguler harus diprioritaskan dan dieskalasi sebagaimana mestinya.
Rencanakan dan kelola keandalan secara menyeluruh, di semua fungsi dan tim Anda. Pertimbangkan untuk menyiapkan Cloud Center of Excellence (CCoE) yang menyertakan pilar keandalan. Untuk mengetahui informasi selengkapnya, lihat Mengoptimalkan perjalanan cloud organisasi Anda dengan Cloud Center of Excellence.
Area fokus untuk keandalan
Aktivitas yang Anda lakukan untuk mendesain, men-deploy, dan mengelola sistem yang andal dapat dikategorikan dalam area fokus berikut. Setiap prinsip dan rekomendasi keandalan dalam pilar ini relevan dengan salah satu area fokus ini.
- Penentuan cakupan: Untuk memahami sistem Anda, lakukan analisis mendetail terhadap arsitekturnya. Anda perlu memahami komponen, cara kerjanya, dan interaksinya, cara data dan tindakan mengalir melalui sistem, serta hal yang dapat terjadi. Identifikasi potensi kegagalan, bottleneck, dan risiko, yang membantu Anda mengambil tindakan untuk memitigasi masalah tersebut.
- Pengamatan: Untuk membantu mencegah kegagalan sistem, terapkan pengamatan dan pemantauan yang komprehensif dan berkelanjutan. Melalui pengamatan ini, Anda dapat memahami tren dan mengidentifikasi potensi masalah secara proaktif.
- Respons: Untuk mengurangi dampak kegagalan, tanggapi dengan tepat dan pulihkan secara efisien. Respons otomatis juga dapat membantu mengurangi dampak kegagalan. Meskipun dengan perencanaan dan kontrol, kegagalan masih dapat terjadi.
- Pembelajaran: Untuk membantu mencegah kegagalan berulang, pelajari setiap pengalaman, dan lakukan tindakan yang sesuai.
Prinsip inti
Rekomendasi dalam pilar keandalan Framework Arsitektur dikaitkan dengan prinsip inti berikut:
- Menentukan keandalan berdasarkan sasaran pengalaman pengguna
- Menetapkan target yang realistis untuk keandalan
- Mem-build sistem yang selalu tersedia melalui resource redundan
- Manfaatkan skalabilitas horizontal
- Mendeteksi potensi kegagalan menggunakan observabilitas
- Mendesain untuk degradasi halus
- Melakukan pengujian untuk pemulihan dari kegagalan
- Melakukan pengujian untuk pemulihan dari kehilangan data
- Melakukan postmortem yang menyeluruh
Kontributor
Penulis:
- Laura Hyatt | Enterprise Cloud Architect
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Gino Pelliccia | Principal Architect
Kontributor lainnya:
- Andrés-Leonardo Martínez-Ortiz | Technical Program Manager
- Brian Kudzia | Enterprise Infrastructure Customer Engineer
- Daniel Lees | Cloud Security Architect
- Filipe Gracio, PhD | Customer Engineer
- Gary Harmson | Customer Engineer
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Ryan Cox | Principal Architect
- Wade Holmes | Direktur Solusi Global
- Zach Seils | Networking Specialist