Pilar keunggulan operasional dalam Google Cloud Framework dengan Arsitektur yang Baik memberikan rekomendasi untuk mengoperasikan workload secara efisien di Google Cloud. Keunggulan operasional di cloud melibatkan desain, penerapan, dan pengelolaan solusi cloud yang memberikan nilai, performa, keamanan, dan keandalan. Rekomendasi dalam pilar ini membantu Anda terus meningkatkan dan menyesuaikan beban kerja untuk memenuhi kebutuhan yang dinamis dan terus berkembang di cloud.
Pilar keunggulan operasional relevan bagi audiens berikut:
- Pengelola dan pemimpin: Framework untuk membangun dan mempertahankan keunggulan operasional di cloud serta memastikan bahwa investasi cloud memberikan nilai dan mendukung tujuan bisnis.
- Tim operasi cloud: Panduan untuk mengelola insiden dan masalah, merencanakan kapasitas, mengoptimalkan performa, dan mengelola perubahan.
- Site reliability engineer (SRE): Praktik terbaik yang membantu Anda mencapai tingkat keandalan layanan yang tinggi, termasuk pemantauan, respons insiden, dan otomatisasi.
- Arsitek dan engineer cloud: Persyaratan operasional dan praktik terbaik untuk fase desain dan implementasi, untuk membantu memastikan bahwa solusi dirancang untuk efisiensi dan skalabilitas operasional.
- Tim DevOps: Panduan tentang otomatisasi, pipeline CI/CD, dan manajemen perubahan, untuk membantu memungkinkan pengiriman software yang lebih cepat dan lebih andal.
Untuk mencapai keunggulan operasional, Anda harus menggunakan otomatisasi, orkestrasi, dan insight berbasis data. Otomatisasi membantu menghilangkan pekerjaan yang merepotkan. Hal ini juga menyederhanakan dan membuat pembatasan pada tugas berulang. Orkestrasi membantu mengoordinasikan proses yang kompleks. Insight berbasis data memungkinkan pengambilan keputusan berbasis bukti. Dengan menggunakan praktik ini, Anda dapat mengoptimalkan operasi cloud, mengurangi biaya, meningkatkan ketersediaan layanan, dan meningkatkan keamanan.
Keunggulan operasional di cloud tidak hanya mencakup kecakapan teknis dalam operasi cloud. Hal ini mencakup perubahan budaya yang mendorong pembelajaran dan eksperimen berkelanjutan. Tim harus diberdayakan untuk berinovasi, melakukan iterasi, dan mengadopsi pola pikir pertumbuhan. Budaya keunggulan operasional mendorong lingkungan kolaboratif tempat individu didorong untuk berbagi ide, menantang asumsi, dan mendorong peningkatan.
Untuk prinsip dan rekomendasi keunggulan operasional yang khusus untuk beban kerja AI dan ML, lihat Perspektif AI dan ML: Keunggulan operasional dalam Framework dengan Arsitektur yang Baik.
Prinsip inti
Rekomendasi dalam pilar keunggulan operasional Framework Arsitektur yang Baik dikaitkan dengan prinsip inti berikut:
- Memastikan kesiapan operasional dan performa menggunakan CloudOps: Memastikan solusi cloud memenuhi persyaratan operasional dan performa dengan menentukan sasaran tingkat layanan (SLO) dan dengan melakukan pemantauan, pengujian performa, dan perencanaan kapasitas yang komprehensif.
- Mengelola insiden dan masalah: Minimalkan dampak insiden cloud dan cegah insiden berulang melalui observabilitas komprehensif, prosedur respons insiden yang jelas, retrospective menyeluruh, dan tindakan pencegahan.
- Mengelola dan mengoptimalkan resource cloud: Optimasikan dan kelola resource cloud melalui strategi seperti penyesuaian ukuran, penskalaan otomatis, dan dengan menggunakan alat pemantauan biaya yang efektif.
- Mengotomatiskan dan mengelola perubahan: Mengotomatiskan proses, menyederhanakan pengelolaan perubahan, dan mengurangi beban pekerjaan manual.
- Terus tingkatkan dan berinovasi: Berfokuslah pada peningkatan berkelanjutan dan pengenalan solusi baru agar tetap kompetitif.
Kontributor
Penulis:
- Ryan Cox | Principal Architect
- Hadrian Knotz | Enterprise Architect
Kontributor lainnya:
- Daniel Lees | Cloud Security Architect
- Filipe Gracio, PhD | Customer Engineer
- Gary Harmson | Customer Engineer
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Zach Seils | Networking Specialist
- Wade Holmes | Direktur Solusi Global
Memastikan kesiapan dan performa operasional menggunakan CloudOps
Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework dengan Arsitektur yang Baik membantu Anda memastikan kesiapan operasional dan performa workload cloud Anda. Praktik ini menekankan penetapan ekspektasi dan komitmen yang jelas untuk performa layanan, menerapkan pemantauan dan pemberitahuan yang andal, melakukan pengujian performa, dan merencanakan kebutuhan kapasitas secara proaktif.
Ringkasan prinsip
Organisasi yang berbeda mungkin menafsirkan kesiapan operasional dengan cara yang berbeda. Kesiapan operasional adalah cara organisasi Anda bersiap untuk berhasil mengoperasikan workload di Google Cloud. Persiapan untuk mengoperasikan workload cloud yang kompleks dan berlapis-lapis memerlukan perencanaan yang cermat untuk operasi peluncuran dan hari ke-2. Operasi ini sering disebut CloudOps.
Area fokus kesiapan operasional
Kesiapan operasional terdiri dari empat area fokus. Setiap area fokus terdiri dari kumpulan aktivitas dan komponen yang diperlukan untuk bersiap mengoperasikan aplikasi atau lingkungan yang kompleks di Google Cloud. Tabel berikut mencantumkan komponen dan aktivitas dari setiap area fokus:
Area fokus kesiapan operasional | Aktivitas dan komponen |
---|---|
Tenaga Kerja |
|
Proses |
|
Alat | Alat yang diperlukan untuk mendukung proses CloudOps. |
Tata kelola |
|
Rekomendasi
Untuk memastikan kesiapan dan performa operasional menggunakan CloudOps, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menentukan SLO dan SLA
Tanggung jawab inti tim operasi cloud adalah menentukan tujuan tingkat layanan (SLO) dan perjanjian tingkat layanan (SLA) untuk semua beban kerja kritis. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.
SLO harus spesifik, terukur, dapat dicapai, relevan, dan terikat waktu (SMART), dan harus mencerminkan tingkat layanan dan performa yang Anda inginkan.
- Khusus: Menjelaskan dengan jelas tingkat layanan dan performa yang diperlukan.
- Terukur: Dapat diukur dan dilacak.
- Dapat dicapai: Dapat dicapai dalam batas kemampuan dan resource organisasi Anda.
- Relevan: Selaraskan dengan sasaran dan prioritas bisnis.
- Terikat waktu: Memiliki jangka waktu yang ditentukan untuk pengukuran dan evaluasi.
Misalnya, SLO untuk aplikasi web mungkin adalah "ketersediaan 99,9%" atau "waktu respons rata-rata kurang dari 200 md". SLO tersebut dengan jelas menentukan tingkat layanan dan performa yang diperlukan untuk aplikasi web, dan SLO dapat diukur dan dilacak dari waktu ke waktu.
SLA menguraikan komitmen kepada pelanggan terkait ketersediaan, performa, dan dukungan layanan, termasuk denda atau ganti rugi apa pun atas ketidakpatuhan. SLA harus menyertakan detail spesifik tentang layanan yang disediakan, tingkat layanan yang dapat diharapkan, tanggung jawab penyedia layanan dan pelanggan, serta hukuman atau ganti rugi apa pun atas ketidakpatuhan. SLA berfungsi sebagai perjanjian kontrak antara kedua pihak, yang memastikan bahwa keduanya memiliki pemahaman yang jelas tentang ekspektasi dan kewajiban yang terkait dengan layanan cloud.
Google Cloud menyediakan alat seperti Cloud Monitoring dan indikator tingkat layanan (SLI) untuk membantu Anda menentukan dan melacak SLO. Cloud Monitoring menyediakan kemampuan pemantauan dan visibilitas yang komprehensif yang memungkinkan organisasi Anda mengumpulkan dan menganalisis metrik yang terkait dengan ketersediaan, performa, dan latensi aplikasi dan layanan berbasis cloud. SLI adalah metrik spesifik yang dapat Anda gunakan untuk mengukur dan melacak SLO dari waktu ke waktu. Dengan memanfaatkan alat ini, Anda dapat memantau dan mengelola layanan cloud secara efektif, serta memastikan layanan tersebut memenuhi SLO dan SLA.
Menentukan dan menyampaikan SLO dan SLA dengan jelas untuk semua layanan cloud kritis Anda akan membantu memastikan keandalan dan performa aplikasi dan layanan yang di-deploy.
Menerapkan kemampuan observasi komprehensif
Untuk mendapatkan visibilitas real-time tentang kondisi dan performa lingkungan cloud, sebaiknya gunakan kombinasi alat Observabilitas Google Cloud dan solusi pihak ketiga. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Dengan menerapkan kombinasi solusi observabilitas, Anda akan mendapatkan strategi observabilitas komprehensif yang mencakup berbagai aspek infrastruktur dan aplikasi cloud Anda. Google Cloud Observability adalah platform terpadu untuk mengumpulkan, menganalisis, dan memvisualisasikan metrik, log, dan rekaman aktivitas dari berbagai layanan, aplikasi, dan sumber eksternalGoogle Cloud . Dengan menggunakan Cloud Monitoring, Anda bisa mendapatkan insight tentang penggunaan resource, karakteristik performa, dan kondisi keseluruhan resource Anda.
Untuk memastikan pemantauan yang komprehensif, pantau metrik penting yang selaras dengan indikator kesehatan sistem seperti penggunaan CPU, penggunaan memori, traffic jaringan, I/O disk, dan waktu respons aplikasi. Anda juga harus mempertimbangkan metrik khusus bisnis. Dengan melacak metrik ini, Anda dapat mengidentifikasi potensi bottleneck, masalah performa, dan batasan resource. Selain itu, Anda dapat menyiapkan pemberitahuan untuk memberi tahu tim yang relevan secara proaktif tentang potensi masalah atau anomali.
Untuk meningkatkan kemampuan pemantauan lebih lanjut, Anda dapat mengintegrasikan solusi pihak ketiga dengan Google Cloud Observability. Solusi ini dapat memberikan fungsi tambahan, seperti analisis lanjutan, deteksi anomali yang didukung machine learning, dan kemampuan pengelolaan insiden. Kombinasi alat Kemampuan Observasi Google Cloud dan solusi pihak ketiga ini memungkinkan Anda membuat ekosistem pemantauan yang andal dan dapat disesuaikan yang disesuaikan dengan kebutuhan spesifik Anda. Dengan menggunakan pendekatan kombinasi ini, Anda dapat secara proaktif mengidentifikasi dan mengatasi masalah, mengoptimalkan penggunaan resource, serta memastikan keandalan dan ketersediaan aplikasi dan layanan cloud secara keseluruhan.
Mengimplementasikan pengujian performa dan beban
Melakukan pengujian performa secara rutin akan membantu Anda memastikan bahwa aplikasi dan infrastruktur berbasis cloud dapat menangani beban puncak dan mempertahankan performa yang optimal. Pengujian beban menyimulasikan pola traffic yang realistis. Pengujian stres mendorong sistem hingga batasnya untuk mengidentifikasi potensi bottleneck dan batasan performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Alat seperti Cloud Load Balancing dan layanan uji beban dapat membantu Anda menyimulasikan pola traffic di dunia nyata dan melakukan uji stres pada aplikasi Anda. Alat ini memberikan insight berharga tentang perilaku sistem Anda dalam berbagai kondisi beban, dan dapat membantu Anda mengidentifikasi area yang memerlukan pengoptimalan.
Berdasarkan hasil pengujian performa, Anda dapat membuat keputusan untuk mengoptimalkan infrastruktur dan aplikasi cloud untuk performa dan skalabilitas yang optimal. Pengoptimalan ini mungkin melibatkan penyesuaian alokasi resource, penyesuaian konfigurasi, atau penerapan mekanisme caching.
Misalnya, jika Anda mendapati bahwa aplikasi mengalami pelambatan selama periode traffic tinggi, Anda mungkin perlu meningkatkan jumlah virtual machine atau penampung yang dialokasikan ke aplikasi. Atau, Anda mungkin perlu menyesuaikan konfigurasi server web atau database untuk meningkatkan performa.
Dengan melakukan pengujian performa secara rutin dan menerapkan pengoptimalan yang diperlukan, Anda dapat memastikan bahwa aplikasi dan infrastruktur berbasis cloud selalu berjalan dengan performa puncak, serta memberikan pengalaman yang lancar dan responsif bagi pengguna. Dengan demikian, Anda dapat mempertahankan keunggulan kompetitif dan membangun kepercayaan dengan pelanggan.
Merencanakan dan mengelola kapasitas
Merencanakan kebutuhan kapasitas di masa mendatang secara proaktif—baik organik maupun anorganik—akan membantu Anda memastikan kelancaran operasi dan skalabilitas sistem berbasis cloud. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.
Merencanakan kapasitas di masa mendatang mencakup pemahaman dan pengelolaan kuota untuk berbagai resource seperti instance komputasi, penyimpanan, dan permintaan API. Dengan menganalisis pola penggunaan historis, proyeksi pertumbuhan, dan persyaratan bisnis, Anda dapat mengantisipasi kebutuhan kapasitas di masa mendatang secara akurat. Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery untuk mengumpulkan dan menganalisis data penggunaan, mengidentifikasi tren, dan memperkirakan permintaan di masa mendatang.
Pola penggunaan historis memberikan insight berharga tentang penggunaan resource dari waktu ke waktu. Dengan memeriksa metrik seperti penggunaan CPU, penggunaan memori, dan traffic jaringan, Anda dapat mengidentifikasi periode permintaan tinggi dan potensi bottleneck. Selain itu, Anda dapat membantu memperkirakan kebutuhan kapasitas di masa mendatang dengan membuat proyeksi pertumbuhan berdasarkan faktor-faktor seperti pertumbuhan basis pengguna, produk dan fitur baru, serta kampanye pemasaran. Saat menilai kebutuhan kapasitas, Anda juga harus mempertimbangkan persyaratan bisnis seperti SLA dan target performa.
Saat menentukan ukuran resource untuk workload, pertimbangkan faktor-faktor yang dapat memengaruhi penggunaan resource. Variasi musiman seperti periode belanja musim liburan atau penjualan akhir kuartal dapat menyebabkan lonjakan permintaan sementara. Peristiwa yang direncanakan seperti peluncuran produk atau kampanye pemasaran juga dapat meningkatkan traffic secara signifikan. Untuk memastikan sistem utama dan pemulihan dari bencana (DR) Anda dapat menangani lonjakan permintaan yang tidak terduga, rencanakan kapasitas yang dapat mendukung failover yang lancar selama gangguan seperti bencana alam dan serangan cyber.
Penskalaan otomatis adalah strategi penting untuk menyesuaikan resource cloud Anda secara dinamis berdasarkan fluktuasi beban kerja. Dengan menggunakan kebijakan penskalaan otomatis, Anda dapat menskalakan instance komputasi, penyimpanan, dan resource lainnya secara otomatis sebagai respons terhadap perubahan permintaan. Hal ini memastikan performa yang optimal selama periode puncak sekaligus meminimalkan biaya saat penggunaan resource rendah. Algoritma penskalaan otomatis menggunakan metrik seperti penggunaan CPU, penggunaan memori, dan kedalaman antrean untuk menentukan kapan harus menskalakan resource.
Memantau dan mengoptimalkan secara berkelanjutan
Untuk mengelola dan mengoptimalkan beban kerja cloud, Anda harus menetapkan proses untuk terus memantau dan menganalisis metrik performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Untuk menetapkan proses pemantauan dan analisis berkelanjutan, Anda melacak, mengumpulkan, dan mengevaluasi data yang terkait dengan berbagai aspek lingkungan cloud Anda. Dengan menggunakan data ini, Anda dapat secara proaktif mengidentifikasi area yang perlu ditingkatkan, mengoptimalkan penggunaan resource, dan memastikan bahwa infrastruktur cloud Anda secara konsisten memenuhi atau melampaui ekspektasi performa Anda.
Aspek penting dari pemantauan performa adalah meninjau log dan rekaman aktivitas secara rutin. Log memberikan insight berharga tentang peristiwa, error, dan peringatan sistem. Trace memberikan informasi mendetail tentang alur permintaan melalui aplikasi Anda. Dengan menganalisis log dan trace, Anda dapat mengidentifikasi potensi masalah, mengidentifikasi akar penyebab masalah, dan mendapatkan pemahaman yang lebih baik tentang perilaku aplikasi Anda dalam berbagai kondisi. Metrik seperti waktu perjalanan bolak-balik di antara layanan dapat membantu Anda mengidentifikasi dan memahami bottleneck yang ada di workload Anda.
Selain itu, Anda dapat menggunakan teknik penyesuaian performa untuk meningkatkan waktu respons aplikasi dan efisiensi secara keseluruhan secara signifikan. Berikut adalah contoh teknik yang dapat Anda gunakan:
- Penyimpanan dalam cache: Menyimpan data yang sering diakses dalam memori untuk mengurangi kebutuhan kueri database atau panggilan API berulang.
- Pengoptimalan database: Gunakan teknik seperti pengindeksan dan pengoptimalan kueri untuk meningkatkan performa operasi database.
- Profiling kode: Identifikasi area kode Anda yang menggunakan resource secara berlebihan atau menyebabkan masalah performa.
Dengan menerapkan teknik ini, Anda dapat mengoptimalkan aplikasi dan memastikan aplikasi berjalan secara efisien di cloud.
Mengelola insiden dan masalah
Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework dengan Arsitektur yang Baik memberikan rekomendasi untuk membantu Anda mengelola insiden dan masalah terkait workload cloud Anda. Hal ini melibatkan penerapan pemantauan dan visibilitas yang komprehensif, menetapkan prosedur respons insiden yang jelas, melakukan analisis akar masalah yang menyeluruh, dan menerapkan tindakan pencegahan. Banyak topik yang dibahas dalam prinsip ini dibahas secara mendetail dalam pilar Keandalan.
Ringkasan prinsip
Pengelolaan insiden dan pengelolaan masalah adalah komponen penting dari lingkungan operasi fungsional. Cara Anda merespons, mengategorikan, dan menyelesaikan insiden dengan tingkat keparahan yang berbeda dapat memengaruhi operasi Anda secara signifikan. Anda juga harus secara proaktif dan terus-menerus melakukan penyesuaian untuk mengoptimalkan keandalan dan performa. Proses yang efisien untuk pengelolaan insiden dan masalah bergantung pada elemen dasar berikut:
- Pemantauan berkelanjutan: Mengidentifikasi dan menyelesaikan masalah dengan cepat.
- Otomatisasi: Sederhanakan tugas dan tingkatkan efisiensi.
- Orkestrasi: Mengkoordinasikan dan mengelola resource cloud secara efektif.
- Insight berbasis data: Mengoptimalkan operasi cloud dan membuat keputusan yang tepat.
Elemen-elemen ini membantu Anda membangun lingkungan cloud yang tangguh dan dapat menangani berbagai tantangan dan gangguan. Elemen-elemen ini juga dapat membantu mengurangi risiko insiden dan downtime yang mahal, serta membantu Anda mencapai kelincahan dan kesuksesan bisnis yang lebih besar. Elemen dasar ini tersebar di seluruh empat area fokus kesiapan operasional: Tenaga Kerja, Proses, Alat, dan Tata Kelola.
Rekomendasi
Untuk mengelola insiden dan masalah secara efektif, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menetapkan prosedur respons insiden yang jelas
Peran dan tanggung jawab yang jelas sangat penting untuk memastikan respons yang efektif dan terkoordinasi terhadap insiden. Selain itu, protokol komunikasi yang jelas dan jalur eskalasi membantu memastikan bahwa informasi dibagikan dengan cepat dan efektif selama insiden. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja, proses, dan alat.
Untuk menetapkan prosedur respons insiden, Anda perlu menentukan peran dan ekspektasi setiap anggota tim, seperti komandan insiden, penyelidik, komunikator, dan pakar teknis. Menetapkan jalur komunikasi dan eskalasi mencakup mengidentifikasi kontak penting, menyiapkan saluran komunikasi, dan menentukan proses untuk mengeskalasikan insiden ke tingkat manajemen yang lebih tinggi jika diperlukan. Pelatihan dan persiapan rutin membantu memastikan bahwa tim dibekali pengetahuan dan keterampilan untuk merespons insiden secara efektif.
Dengan mendokumentasikan prosedur respons insiden dalam runbook atau playbook, Anda dapat memberikan panduan referensi standar untuk diikuti tim selama insiden. Runbook harus menguraikan langkah-langkah yang akan diambil di setiap tahap proses respons insiden, termasuk komunikasi, triase, investigasi, dan penyelesaian. Panduan ini juga harus menyertakan informasi tentang alat dan referensi yang relevan serta informasi kontak untuk personel penting. Anda harus meninjau dan memperbarui runbook secara rutin untuk memastikannya tetap terbaru dan efektif.
Memusatkan pengelolaan insiden
Untuk pelacakan dan pengelolaan yang efektif selama siklus proses insiden, pertimbangkan untuk menggunakan sistem pengelolaan insiden terpusat. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Sistem pengelolaan insiden terpusat memberikan keuntungan berikut:
- Visibilitas yang lebih baik: Dengan menggabungkan semua data terkait insiden di satu lokasi, Anda tidak perlu lagi melakukan penelusuran di berbagai saluran atau sistem untuk mendapatkan konteks. Pendekatan ini menghemat waktu dan mengurangi kebingungan, serta memberi pemangku kepentingan gambaran komprehensif tentang insiden, termasuk status, dampak, dan progresnya.
- Koordinasi dan kolaborasi yang lebih baik: Sistem terpusat menyediakan platform terpadu untuk komunikasi dan pengelolaan tugas. Hal ini mendorong kolaborasi yang lancar antara berbagai departemen dan fungsi yang terlibat dalam respons insiden. Pendekatan ini memastikan bahwa semua orang memiliki akses ke informasi terbaru dan mengurangi risiko miskomunikasi dan ketidaksesuaian.
- Akuntabilitas dan kepemilikan yang ditingkatkan: Sistem pengelolaan insiden terpusat memungkinkan organisasi Anda mengalokasikan tugas kepada individu atau tim tertentu dan memastikan bahwa tanggung jawab ditentukan dan dilacak dengan jelas. Pendekatan ini mendorong akuntabilitas dan mendorong pemecahan masalah yang proaktif karena anggota tim dapat dengan mudah memantau progres dan kontribusi mereka.
Sistem pengelolaan insiden terpusat harus menawarkan fitur yang andal untuk pelacakan insiden, penetapan tugas, dan pengelolaan komunikasi. Fitur ini memungkinkan Anda menyesuaikan alur kerja, menetapkan prioritas, dan berintegrasi dengan sistem lain, seperti alat pemantauan dan sistem tiket.
Dengan menerapkan sistem pengelolaan insiden terpusat, Anda dapat mengoptimalkan proses respons insiden organisasi, meningkatkan kolaborasi, dan meningkatkan visibilitas. Tindakan ini akan mempercepat waktu penyelesaian insiden, mengurangi periode nonaktif, dan meningkatkan kepuasan pelanggan. Hal ini juga membantu menumbuhkan budaya peningkatan berkelanjutan karena Anda dapat belajar dari insiden sebelumnya dan mengidentifikasi area yang perlu ditingkatkan.
Melakukan peninjauan pasca-insiden secara menyeluruh
Setelah insiden terjadi, Anda harus melakukan peninjauan pasca-insiden (PIR) yang mendetail, yang juga dikenal sebagai post-mortem, untuk mengidentifikasi akar penyebab, faktor yang berkontribusi, dan pelajaran yang didapat. Peninjauan mendetail ini membantu Anda mencegah insiden serupa di masa mendatang. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan tata kelola.
Proses PIR harus melibatkan tim multidisiplin yang memiliki keahlian dalam berbagai aspek insiden. Tim harus mengumpulkan semua informasi yang relevan melalui wawancara, peninjauan dokumentasi, dan inspeksi situs. Linimasa peristiwa harus dibuat untuk menetapkan urutan tindakan yang mengarah ke insiden.
Setelah tim mengumpulkan informasi yang diperlukan, mereka harus melakukan analisis akar masalah untuk menentukan faktor yang menyebabkan insiden. Analisis ini harus mengidentifikasi penyebab langsung dan masalah sistemis yang berkontribusi pada insiden.
Selain mengidentifikasi akar masalah, tim PIR harus mengidentifikasi faktor lain yang berkontribusi yang mungkin menyebabkan insiden. Faktor ini dapat mencakup kesalahan manusia, kegagalan peralatan, atau faktor organisasi seperti gangguan komunikasi dan kurangnya pelatihan.
Laporan PIR harus mendokumentasikan temuan investigasi, termasuk linimasa peristiwa, analisis akar masalah, dan tindakan yang direkomendasikan. Laporan ini adalah referensi yang berharga untuk menerapkan tindakan korektif dan mencegah terulangnya masalah. Laporan ini harus dibagikan kepada semua pemangku kepentingan yang relevan dan harus digunakan untuk mengembangkan pelatihan dan prosedur keamanan.
Untuk memastikan proses PIR yang berhasil, organisasi Anda harus memupuk budaya tanpa menyalahkan yang berfokus pada pembelajaran dan peningkatan, bukan menyalahkan. Budaya ini mendorong individu untuk melaporkan insiden tanpa takut diberi hukuman, dan memungkinkan Anda mengatasi masalah sistemis serta melakukan perbaikan yang signifikan.
Dengan melakukan PIR yang menyeluruh dan menerapkan tindakan korektif berdasarkan temuan, Anda dapat secara signifikan mengurangi risiko insiden serupa yang terjadi di masa mendatang. Pendekatan proaktif terhadap investigasi dan pencegahan insiden ini membantu menciptakan lingkungan kerja yang lebih aman dan efisien bagi semua pihak yang terlibat.
Mengelola pusat informasi
Pengetahuan dasar tentang masalah umum, solusi, dan panduan pemecahan masalah sangat penting untuk pengelolaan dan penyelesaian insiden. Anggota tim dapat menggunakan basis pengetahuan untuk mengidentifikasi dan mengatasi masalah umum dengan cepat. Menerapkan basis pengetahuan membantu mengurangi kebutuhan untuk melakukan eskalasi dan meningkatkan efisiensi secara keseluruhan. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja dan proses.
Manfaat utama dari pusat informasi adalah memungkinkan tim belajar dari pengalaman terdahulu dan menghindari pengulangan kesalahan. Dengan merekam dan membagikan solusi untuk masalah yang diketahui, tim dapat membangun pemahaman kolektif tentang cara menyelesaikan masalah umum dan praktik terbaik untuk pengelolaan insiden. Penggunaan basis pengetahuan menghemat waktu dan tenaga, serta membantu menstandarkan proses dan memastikan konsistensi dalam penyelesaian insiden.
Selain membantu meningkatkan waktu penyelesaian insiden, basis pengetahuan mendorong berbagi pengetahuan dan kolaborasi di seluruh tim. Dengan repositori informasi terpusat, tim dapat dengan mudah mengakses dan berkontribusi pada basis pengetahuan, yang mendorong budaya pembelajaran dan peningkatan berkelanjutan. Budaya ini mendorong tim untuk berbagi keahlian dan pengalaman mereka, sehingga menciptakan basis pengetahuan yang lebih komprehensif dan berharga.
Untuk membuat dan mengelola pusat informasi secara efektif, gunakan alat dan teknologi yang sesuai. Platform kolaborasi seperti Google Workspace sangat cocok untuk tujuan ini karena memungkinkan Anda membuat, mengedit, dan berbagi dokumen secara kolaboratif dengan mudah. Alat ini juga mendukung kontrol versi dan pelacakan perubahan, yang memastikan bahwa pustaka pengetahuan tetap terbaru dan akurat.
Buat pusat informasi mudah diakses oleh semua tim yang relevan. Anda dapat melakukannya dengan mengintegrasikan basis pengetahuan dengan sistem pengelolaan insiden yang ada atau dengan menyediakan portal atau situs intranet khusus. Dengan menyediakan pustaka informasi yang mudah diakses, tim dapat dengan cepat mengakses informasi yang mereka perlukan untuk menyelesaikan insiden secara efisien. Ketersediaan ini membantu mengurangi periode nonaktif dan meminimalkan dampak terhadap operasi bisnis.
Tinjau dan perbarui basis pengetahuan secara rutin untuk memastikannya tetap relevan dan bermanfaat. Pantau laporan insiden, identifikasi masalah dan tren umum, serta sertakan solusi baru dan panduan pemecahan masalah ke dalam basis pengetahuan. Pustaka pengetahuan terbaru membantu tim Anda menyelesaikan insiden dengan lebih cepat dan lebih efektif.
Mengotomatiskan respons insiden
Otomatisasi membantu menyederhanakan proses respons insiden dan perbaikan. Dengan begitu, Anda dapat mengatasi pelanggaran keamanan dan kegagalan sistem dengan cepat dan efisien. Dengan menggunakan Google Cloud produk seperti fungsi Cloud Run atau Cloud Run, Anda dapat mengotomatiskan berbagai tugas yang biasanya dilakukan secara manual dan memakan waktu. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Respons insiden otomatis memberikan manfaat berikut:
- Pengurangan waktu deteksi dan penyelesaian insiden: Alat otomatis dapat terus memantau sistem dan aplikasi, mendeteksi aktivitas yang mencurigakan atau tidak wajar secara real time, serta memberi tahu pemangku kepentingan atau merespons tanpa intervensi. Dengan otomatisasi ini, Anda dapat mengidentifikasi potensi ancaman atau masalah sebelum berkembang menjadi insiden besar. Saat insiden terdeteksi, alat otomatis dapat memicu tindakan perbaikan yang telah ditentukan, seperti mengisolasi sistem yang terpengaruh, mengarantina file berbahaya, atau melakukan pembatalan perubahan untuk memulihkan sistem ke status yang diketahui aman.
- Mengurangi beban tim keamanan dan operasi: Respons insiden otomatis memungkinkan tim keamanan dan operasi berfokus pada tugas yang lebih strategis. Dengan mengotomatiskan tugas rutin dan berulang, seperti mengumpulkan informasi diagnostik atau memicu pemberitahuan, organisasi Anda dapat membebaskan personel untuk menangani insiden yang lebih kompleks dan penting. Otomatisasi ini dapat meningkatkan efektivitas dan efisiensi respons insiden secara keseluruhan.
- Peningkatan konsistensi dan akurasi proses perbaikan: Alat otomatis dapat memastikan bahwa tindakan perbaikan diterapkan secara seragam di semua sistem yang terpengaruh, sehingga meminimalkan risiko kesalahan manusia atau inkonsistensi. Standarisasi proses perbaikan ini membantu meminimalkan dampak insiden terhadap pengguna dan bisnis.
Mengelola dan mengoptimalkan resource cloud
Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework dengan Arsitektur yang Baik memberikan rekomendasi untuk membantu Anda mengelola dan mengoptimalkan resource yang digunakan oleh workload cloud Anda. Hal ini melibatkan penyesuaian ukuran resource berdasarkan penggunaan dan permintaan yang sebenarnya, menggunakan penskalaan otomatis untuk alokasi resource dinamis, menerapkan strategi pengoptimalan biaya, dan meninjau pemanfaatan resource dan biaya secara berkala. Banyak topik yang dibahas dalam prinsip ini dibahas secara mendetail dalam pilar Pengoptimalan biaya.
Ringkasan prinsip
Pengelolaan dan pengoptimalan resource cloud memainkan peran penting dalam mengoptimalkan pengeluaran cloud, penggunaan resource, dan efisiensi infrastruktur. Panduan ini mencakup berbagai strategi dan praktik terbaik yang bertujuan untuk memaksimalkan nilai dan laba dari pembelanjaan cloud Anda.
Fokus pilar ini pada pengoptimalan tidak hanya mencakup pengurangan biaya. Laporan ini menekankan tujuan berikut:
- Efisiensi: Menggunakan otomatisasi dan analisis data untuk mencapai performa puncak dan penghematan biaya.
- Performa: Menskalakan resource dengan mudah untuk memenuhi permintaan yang berfluktuasi dan memberikan hasil yang optimal.
- Skalabilitas: Menyesuaikan infrastruktur dan proses untuk menampung pertumbuhan yang cepat dan beragam beban kerja.
Dengan berfokus pada sasaran ini, Anda akan mencapai keseimbangan antara biaya dan fungsi. Anda dapat membuat keputusan yang tepat terkait penyediaan, penskalaan, dan migrasi resource. Selain itu, Anda akan mendapatkan insight berharga tentang pola konsumsi resource, yang memungkinkan Anda mengidentifikasi dan mengatasi potensi masalah secara proaktif sebelum masalah tersebut berkembang.
Rekomendasi
Untuk mengelola dan mengoptimalkan resource, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menyesuaikan ukuran resource
Pemantauan pemanfaatan resource secara terus-menerus dan penyesuaian alokasi resource agar sesuai dengan permintaan sebenarnya sangat penting untuk pengelolaan resource cloud yang efisien. Penyediaan resource yang berlebihan dapat menyebabkan biaya yang tidak perlu, dan penyediaan yang kurang dapat menyebabkan bottleneck performa yang memengaruhi performa aplikasi dan pengalaman pengguna. Untuk mencapai keseimbangan yang optimal, Anda harus mengadopsi pendekatan proaktif untuk menyesuaikan ukuran resource cloud. Rekomendasi ini relevan dengan area fokus kesiapan operasional pemerintahan.
Cloud Monitoring dan Recommender dapat membantu Anda mengidentifikasi peluang untuk melakukan penskalaan yang tepat. Cloud Monitoring memberikan visibilitas real-time ke dalam metrik penggunaan resource. Visibilitas ini memungkinkan Anda melacak pola penggunaan resource dan mengidentifikasi potensi inefisiensi. Pemberi rekomendasi menganalisis data penggunaan resource untuk membuat rekomendasi cerdas guna mengoptimalkan alokasi resource. Dengan menggunakan alat ini, Anda dapat memperoleh insight tentang penggunaan resource dan membuat keputusan yang tepat tentang ukuran resource yang tepat.
Selain Cloud Monitoring dan Recommender, pertimbangkan untuk menggunakan metrik kustom guna memicu tindakan penentuan ukuran yang tepat secara otomatis. Metrik kustom memungkinkan Anda melacak metrik penggunaan resource tertentu yang relevan dengan aplikasi dan beban kerja Anda. Anda juga dapat mengonfigurasi pemberitahuan untuk memberi tahu admin saat nilai minimum yang telah ditentukan tercapai. Kemudian, administrator dapat mengambil tindakan yang diperlukan untuk menyesuaikan alokasi resource. Pendekatan proaktif ini memastikan bahwa resource diskalakan secara tepat waktu, yang membantu mengoptimalkan biaya cloud dan mencegah masalah performa.
Menggunakan penskalaan otomatis
Komputasi penskalaan otomatis dan resource lainnya membantu memastikan performa dan efisiensi biaya yang optimal dari aplikasi berbasis cloud Anda. Dengan penskalaan otomatis, Anda dapat menyesuaikan kapasitas resource secara dinamis berdasarkan fluktuasi workload, sehingga Anda memiliki resource yang diperlukan saat diperlukan dan dapat menghindari penyediaan yang berlebihan serta biaya yang tidak perlu. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.
Untuk memenuhi berbagai kebutuhan aplikasi dan beban kerja yang berbeda, Google Cloud menawarkan berbagai opsi penskalaan otomatis, termasuk yang berikut:
- Grup instance terkelola (MIG) Compute Engine adalah grup VM yang dikelola dan diskalakan sebagai satu entity. Dengan MIG, Anda dapat menentukan kebijakan penskalaan otomatis yang menentukan jumlah minimum dan maksimum VM yang akan dipertahankan dalam grup, serta kondisi yang memicu penskalaan otomatis. Misalnya, Anda dapat mengonfigurasi kebijakan untuk menambahkan VM di MIG saat penggunaan CPU mencapai batas tertentu dan menghapus VM saat penggunaan turun di bawah batas yang berbeda.
Autoscaling Google Kubernetes Engine (GKE) menyesuaikan resource cluster secara dinamis agar sesuai dengan kebutuhan aplikasi Anda. Alat ini menawarkan alat berikut:
- Autoscaler Cluster menambahkan atau menghapus node berdasarkan permintaan resource Pod.
- Horizontal Pod Autoscaler mengubah jumlah replika Pod berdasarkan metrik CPU, memori, atau kustom.
- Autoscaler Pod Vertikal menyesuaikan permintaan dan batas resource Pod berdasarkan pola penggunaan.
- Penyediaan Otomatis Node akan otomatis membuat node pool yang dioptimalkan untuk workload Anda.
Alat ini bekerja sama untuk mengoptimalkan penggunaan resource, memastikan performa aplikasi, dan menyederhanakan pengelolaan cluster.
Cloud Run adalah platform serverless yang memungkinkan Anda menjalankan kode tanpa harus mengelola infrastruktur. Cloud Run menawarkan penskalaan otomatis bawaan, yang secara otomatis menyesuaikan jumlah instance berdasarkan traffic masuk. Saat volume traffic meningkat, Cloud Run akan meningkatkan jumlah instance untuk menangani beban. Saat traffic menurun, Cloud Run akan menskalakan jumlah instance untuk mengurangi biaya.
Dengan menggunakan opsi penskalaan otomatis ini, Anda dapat memastikan bahwa aplikasi berbasis cloud memiliki resource yang diperlukan untuk menangani berbagai beban kerja, sekaligus menghindari penyediaan yang berlebihan dan biaya yang tidak perlu. Penggunaan penskalaan otomatis dapat meningkatkan performa, menghemat biaya, dan menggunakan resource cloud secara lebih efisien.
Manfaatkan strategi pengoptimalan biaya
Mengoptimalkan pembelanjaan cloud membantu Anda mengelola anggaran IT organisasi secara efektif. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.
Google Cloud menawarkan beberapa alat dan teknik untuk membantu Anda mengoptimalkan biaya cloud. Dengan menggunakan alat dan teknik ini, Anda bisa mendapatkan nilai terbaik dari pembelanjaan cloud. Alat dan teknik ini membantu Anda mengidentifikasi area yang dapat mengurangi biaya, seperti mengidentifikasi resource yang kurang dimanfaatkan atau merekomendasikan jenis instance yang lebih hemat biaya. Google Cloud opsi untuk membantu mengoptimalkan biaya cloud mencakup hal berikut:
- Diskon abonemen (CUD) adalah diskon untuk berkomitmen pada tingkat penggunaan tertentu selama jangka waktu tertentu.
- Diskon penggunaan berkelanjutan di Compute Engine memberikan diskon untuk penggunaan layanan yang konsisten.
- Spot VM memberikan akses ke kapasitas VM yang tidak digunakan dengan biaya lebih rendah dibandingkan VM reguler.
Model harga dapat berubah dari waktu ke waktu, dan fitur baru mungkin diperkenalkan yang menawarkan performa yang lebih baik atau biaya yang lebih rendah dibandingkan dengan opsi yang ada. Oleh karena itu, Anda harus meninjau model harga secara rutin dan mempertimbangkan fitur alternatif. Dengan terus mendapatkan informasi tentang model dan fitur harga terbaru, Anda dapat membuat keputusan yang tepat tentang arsitektur cloud untuk meminimalkan biaya.
Alat Pengelolaan BiayaGoogle Cloud, seperti anggaran dan pemberitahuan, memberikan insight yang berharga tentang pengeluaran cloud. Anggaran dan pemberitahuan memungkinkan pengguna menetapkan anggaran dan menerima pemberitahuan saat anggaran terlampaui. Alat ini membantu pengguna melacak pembelanjaan cloud mereka dan mengidentifikasi area yang dapat mengurangi biaya.
Melacak penggunaan dan biaya resource
Anda dapat menggunakan pemberian tag dan pelabelan untuk melacak penggunaan dan biaya resource. Dengan menetapkan tag dan label ke resource cloud seperti project, departemen, atau dimensi relevan lainnya, Anda dapat mengategorikan dan mengatur resource. Hal ini memungkinkan Anda memantau dan menganalisis pola pembelanjaan untuk resource tertentu dan mengidentifikasi area dengan penggunaan tinggi atau potensi penghematan biaya. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: pemerintahan dan alat.
Alat seperti Penagihan Cloud dan Pengelolaan Biaya membantu Anda mendapatkan pemahaman yang komprehensif tentang pola pembelanjaan Anda. Alat ini memberikan insight mendetail tentang penggunaan cloud Anda dan memungkinkan Anda mengidentifikasi tren, memperkirakan biaya, dan membuat keputusan yang tepat. Dengan menganalisis data historis dan pola pembelanjaan saat ini, Anda dapat mengidentifikasi area fokus untuk upaya pengoptimalan biaya.
Dasbor dan laporan kustom membantu Anda memvisualisasikan data biaya dan mendapatkan insight yang lebih mendalam tentang tren pembelanjaan. Dengan menyesuaikan dasbor dengan metrik dan dimensi yang relevan, Anda dapat memantau indikator performa utama (KPI) dan melacak progres menuju sasaran pengoptimalan biaya. Laporan menawarkan analisis data biaya yang lebih mendalam. Laporan memungkinkan Anda memfilter data menurut jangka waktu atau jenis resource tertentu untuk memahami faktor yang mendasari pembelanjaan cloud Anda.
Tinjau dan perbarui tag, label, dan alat analisis biaya Anda secara rutin untuk memastikan bahwa Anda memiliki informasi terbaru tentang penggunaan dan biaya cloud. Dengan terus mendapatkan informasi dan melakukan postmortem biaya atau peninjauan biaya proaktif, Anda dapat segera mengidentifikasi peningkatan pengeluaran yang tidak terduga. Dengan demikian, Anda dapat membuat keputusan proaktif untuk mengoptimalkan resource cloud dan mengontrol biaya.
Menetapkan alokasi dan penganggaran biaya
Akuntabilitas dan transparansi dalam pengelolaan biaya cloud sangat penting untuk mengoptimalkan penggunaan resource dan memastikan kontrol keuangan. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.
Untuk memastikan akuntabilitas dan transparansi, Anda harus memiliki mekanisme yang jelas untuk alokasi biaya dan penagihan balik. Dengan mengalokasikan biaya ke tim, project, atau individu tertentu, organisasi Anda dapat memastikan bahwa setiap entitas ini bertanggung jawab atas penggunaan cloud-nya. Praktik ini menumbuhkan rasa kepemilikan dan mendorong pengelolaan resource yang bertanggung jawab. Selain itu, mekanisme penagihan balik memungkinkan organisasi Anda memulihkan biaya cloud dari pelanggan internal, menyelaraskan insentif dengan performa, dan mendorong disiplin fiskal.
Menetapkan anggaran untuk berbagai tim atau project adalah aspek penting lainnya dari pengelolaan biaya cloud. Anggaran memungkinkan organisasi Anda menentukan batas pembelanjaan dan melacak pengeluaran sebenarnya terhadap batas tersebut. Pendekatan ini memungkinkan Anda membuat keputusan proaktif untuk mencegah pembelanjaan yang tidak terkontrol. Dengan menetapkan anggaran yang realistis dan dapat dicapai, Anda dapat memastikan bahwa resource cloud digunakan secara efisien dan selaras dengan tujuan bisnis. Pemantauan rutin terhadap belanja aktual dibandingkan anggaran akan membantu Anda mengidentifikasi varians dan mengatasi potensi kelebihan anggaran dengan cepat.
Untuk memantau anggaran, Anda dapat menggunakan alat seperti anggaran dan pemberitahuan Penagihan Cloud. Alat ini memberikan insight real-time tentang pembelanjaan cloud dan memberi tahu pemangku kepentingan tentang potensi kelebihan pembelanjaan. Dengan menggunakan kemampuan ini, Anda dapat melacak biaya cloud dan mengambil tindakan korektif sebelum terjadi penyimpangan yang signifikan. Pendekatan proaktif ini membantu mencegah kejutan finansial dan memastikan bahwa resource cloud digunakan secara bertanggung jawab.
Mengotomatiskan dan mengelola perubahan
Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework dengan Arsitektur yang Baik memberikan rekomendasi untuk membantu Anda mengotomatiskan dan mengelola perubahan untuk workload cloud Anda. Hal ini melibatkan penerapan infrastruktur sebagai kode (IaC), menetapkan prosedur operasi standar, menerapkan proses pengelolaan perubahan terstruktur, dan menggunakan otomatisasi dan orkestrasi.
Ringkasan prinsip
Pengelolaan perubahan dan otomatisasi memainkan peran penting dalam memastikan transisi yang lancar dan terkontrol dalam lingkungan cloud. Untuk manajemen perubahan yang efektif, Anda perlu menggunakan strategi dan praktik terbaik yang meminimalkan gangguan dan memastikan perubahan terintegrasi dengan lancar dengan sistem yang ada.
Pengelolaan dan otomatisasi perubahan yang efektif mencakup elemen dasar berikut:
- Tata kelola perubahan: Tetapkan kebijakan dan prosedur yang jelas untuk manajemen perubahan, termasuk proses persetujuan dan rencana komunikasi.
- Penilaian risiko: Identifikasi potensi risiko yang terkait dengan perubahan dan mitigasinya melalui teknik manajemen risiko.
- Pengujian dan validasi: Uji perubahan secara menyeluruh untuk memastikan perubahan tersebut memenuhi persyaratan fungsional dan performa serta mengurangi potensi regresi.
- Deployment terkontrol: Terapkan perubahan dengan cara yang terkontrol, yang memastikan pengguna bertransisi dengan lancar ke lingkungan baru, dengan mekanisme untuk melakukan rollback dengan lancar jika diperlukan.
Elemen dasar ini membantu meminimalkan dampak perubahan dan memastikan bahwa perubahan memiliki efek positif pada operasi bisnis. Elemen ini diwakili oleh proses, alat, dan tata kelola area fokus kesiapan operasional.
Rekomendasi
Untuk mengotomatiskan dan mengelola perubahan, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Mengadopsi IaC
Infrastructure as code (IaC) adalah pendekatan transformatif untuk mengelola infrastruktur cloud. Anda dapat menentukan dan mengelola infrastruktur cloud secara deklaratif dengan menggunakan alat seperti Terraform. IaC membantu Anda mencapai konsistensi, pengulangan, dan manajemen perubahan yang sederhana. Hal ini juga memungkinkan deployment yang lebih cepat dan lebih andal. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Berikut adalah manfaat utama mengadopsi pendekatan IaC untuk deployment cloud Anda:
- Konfigurasi resource yang dapat dibaca manusia: Dengan pendekatan IaC, Anda dapat mendeklarasikan resource infrastruktur cloud dalam format yang dapat dibaca manusia, seperti JSON atau YAML. Administrator dan operator infrastruktur dapat dengan mudah memahami dan mengubah infrastruktur serta berkolaborasi dengan orang lain.
- Konsistensi dan pengulangan: IaC memungkinkan konsistensi dan pengulangan dalam deployment infrastruktur Anda. Anda dapat memastikan bahwa infrastruktur Anda disediakan dan dikonfigurasi dengan cara yang sama setiap saat, terlepas dari siapa yang melakukan deployment. Pendekatan ini membantu mengurangi error dan memastikan bahwa infrastruktur Anda selalu dalam status yang diketahui.
- Akuntabilitas dan pemecahan masalah yang disederhanakan: Pendekatan IaC membantu meningkatkan akuntabilitas dan mempermudah pemecahan masalah. Dengan menyimpan kode IaC di sistem kontrol versi, Anda dapat melacak perubahan, serta mengidentifikasi kapan perubahan dilakukan dan oleh siapa. Jika perlu, Anda dapat dengan mudah melakukan roll back ke versi sebelumnya.
Menerapkan kontrol versi
Sistem kontrol versi seperti Git adalah komponen utama dari proses IaC. DevOps menyediakan kemampuan mitigasi risiko dan pengelolaan perubahan yang andal, itulah sebabnya devops diadopsi secara luas, baik melalui pengembangan internal maupun solusi SaaS. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tata kelola dan alat.
Dengan melacak perubahan pada kode dan konfigurasi IaC, kontrol versi memberikan visibilitas tentang evolusi kode, sehingga mempermudah pemahaman dampak perubahan dan mengidentifikasi potensi masalah. Visibilitas yang ditingkatkan ini mendorong kolaborasi antar-anggota tim yang mengerjakan project IaC yang sama.
Sebagian besar sistem kontrol versi memungkinkan Anda dengan mudah melakukan rollback perubahan jika diperlukan. Kemampuan ini membantu memitigasi risiko konsekuensi atau error yang tidak diinginkan. Dengan menggunakan alat seperti Git dalam alur kerja IaC, Anda dapat secara signifikan meningkatkan proses pengelolaan perubahan, mendorong kolaborasi, dan memitigasi risiko, yang mengarah pada implementasi IaC yang lebih efisien dan andal.
Membuat pipeline CI/CD
Pipeline continuous integration dan continuous delivery (CI/CD) menyederhanakan proses pengembangan dan deployment aplikasi cloud. Pipeline CI/CD mengotomatiskan tahap build, pengujian, dan deployment, yang memungkinkan rilis yang lebih cepat dan lebih sering dengan kontrol kualitas yang lebih baik. Rekomendasi ini relevan dengan alat area fokus kesiapan operasional.
Pipeline CI/CD memastikan bahwa perubahan kode terus diintegrasikan ke dalam repositori pusat, biasanya sistem kontrol versi seperti Git. Integrasi berkelanjutan memungkinkan deteksi dan penyelesaian masalah lebih awal, serta mengurangi kemungkinan bug atau masalah kompatibilitas.
Untuk membuat dan mengelola pipeline CI/CD untuk aplikasi cloud, Anda dapat menggunakan alat seperti Cloud Build dan Cloud Deploy.
- Cloud Build adalah layanan build terkelola sepenuhnya yang memungkinkan developer menentukan dan menjalankan langkah-langkah build secara deklaratif. Layanan ini terintegrasi secara lancar dengan platform pengelolaan kode sumber yang populer dan dapat dipicu oleh peristiwa seperti permintaan pull dan push kode.
- Cloud Deploy adalah layanan deployment tanpa server yang mengotomatiskan proses deployment aplikasi ke berbagai lingkungan, seperti pengujian, staging, dan produksi. Layanan ini menyediakan fitur seperti deployment blue-green, pemisahan traffic, dan kemampuan rollback, sehingga memudahkan pengelolaan dan pemantauan deployment aplikasi.
Mengintegrasikan pipeline CI/CD dengan sistem kontrol versi dan framework pengujian membantu memastikan kualitas dan keandalan aplikasi cloud Anda. Dengan menjalankan pengujian otomatis sebagai bagian dari proses CI/CD, tim pengembangan dapat mengidentifikasi dan memperbaiki masalah dengan cepat sebelum kode di-deploy ke lingkungan produksi. Integrasi ini membantu meningkatkan stabilitas dan performa aplikasi cloud Anda secara keseluruhan.
Menggunakan alat pengelolaan konfigurasi
Alat seperti Puppet, Chef, Ansible, dan VM Manager membantu Anda mengotomatiskan konfigurasi dan pengelolaan resource cloud. Dengan menggunakan alat ini, Anda dapat memastikan konsistensi dan kepatuhan resource di seluruh lingkungan cloud. Rekomendasi ini relevan dengan area fokus kesiapan operasional alat.
Mengotomatiskan konfigurasi dan pengelolaan resource cloud memberikan manfaat berikut:
- Pengurangan risiko error manual yang signifikan: Jika proses manual terlibat, kemungkinan kesalahan akan lebih tinggi karena kesalahan manusia. Alat pengelolaan konfigurasi mengurangi risiko ini dengan mengotomatiskan proses, sehingga konfigurasi diterapkan secara konsisten dan akurat di semua resource cloud. Otomatisasi ini dapat meningkatkan keandalan dan stabilitas lingkungan cloud.
- Peningkatan efisiensi operasional: Dengan mengotomatiskan tugas berulang, organisasi Anda dapat membebaskan staf IT untuk berfokus pada inisiatif yang lebih strategis. Otomatisasi ini dapat meningkatkan produktivitas dan penghematan biaya serta meningkatkan respons terhadap kebutuhan bisnis yang berubah-ubah.
- Pengelolaan infrastruktur cloud yang kompleks menjadi lebih sederhana: Seiring dengan meningkatnya ukuran dan kompleksitas lingkungan cloud, pengelolaan resource dapat menjadi lebih sulit. Alat pengelolaan konfigurasi menyediakan platform terpusat untuk mengelola resource cloud. Alat ini memudahkan pengelolaan konfigurasi, identifikasi masalah, dan penerapan perubahan. Penggunaan alat ini dapat meningkatkan visibilitas, kontrol, dan keamanan lingkungan cloud Anda.
Mengotomatiskan pengujian
Mengintegrasikan pengujian otomatis ke dalam pipeline CI/CD membantu memastikan kualitas dan keandalan aplikasi cloud Anda. Dengan memvalidasi perubahan sebelum deployment, Anda dapat secara signifikan mengurangi risiko error dan regresi, yang mengarah pada sistem software yang lebih stabil dan andal. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Berikut adalah manfaat utama menggabungkan pengujian otomatis ke dalam pipeline CI/CD Anda:
- Deteksi bug dan kerusakan awal: Pengujian otomatis membantu mendeteksi bug dan kerusakan di awal proses pengembangan, sebelum dapat menyebabkan masalah besar dalam produksi. Kemampuan ini menghemat waktu dan resource dengan mencegah perlunya pengerjaan ulang yang mahal dan perbaikan bug pada tahap berikutnya dalam proses pengembangan.
- Kode berkualitas tinggi dan berbasis standar: Pengujian otomatis dapat membantu meningkatkan kualitas kode secara keseluruhan dengan memastikan bahwa kode memenuhi standar dan praktik terbaik tertentu. Kemampuan ini menghasilkan aplikasi yang lebih mudah dikelola dan andal serta tidak rentan terhadap error.
Anda dapat menggunakan berbagai jenis teknik pengujian di pipeline CI/CD. Setiap jenis pengujian memiliki tujuan tertentu.
- Pengujian unit berfokus pada pengujian setiap unit kode, seperti fungsi atau metode, untuk memastikan bahwa unit tersebut berfungsi seperti yang diharapkan.
- Pengujian integrasi menguji interaksi antara berbagai komponen atau modul aplikasi Anda untuk memverifikasi bahwa semuanya berfungsi dengan benar.
- Pengujian menyeluruh sering digunakan bersama dengan pengujian unit dan integrasi. Pengujian menyeluruh menyimulasikan skenario dunia nyata untuk menguji aplikasi secara keseluruhan, dan membantu memastikan bahwa aplikasi memenuhi persyaratan pengguna akhir Anda.
Untuk mengintegrasikan pengujian otomatis ke dalam pipeline CI/CD secara efektif, Anda harus memilih alat dan framework pengujian yang sesuai. Ada banyak opsi yang berbeda, masing-masing dengan kelebihan dan kekurangannya sendiri. Anda juga harus menetapkan strategi pengujian yang jelas yang menguraikan jenis pengujian yang akan dilakukan, frekuensi pengujian, dan kriteria untuk lulus atau gagal dalam pengujian. Dengan mengikuti rekomendasi ini, Anda dapat memastikan bahwa proses pengujian otomatis Anda efisien dan efektif. Proses tersebut memberikan insight berharga tentang kualitas dan keandalan aplikasi cloud Anda.
Terus meningkatkan kualitas dan berinovasi
Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework dengan Arsitektur yang Baik memberikan rekomendasi untuk membantu Anda terus mengoptimalkan operasi cloud dan mendorong inovasi.
Ringkasan prinsip
Untuk terus meningkatkan dan berinovasi di cloud, Anda perlu berfokus pada pembelajaran, eksperimen, dan adaptasi berkelanjutan. Hal ini membantu Anda menjelajahi teknologi baru dan mengoptimalkan proses yang ada serta mendorong budaya keunggulan yang memungkinkan organisasi Anda mencapai dan mempertahankan kepemimpinan industri.
Melalui peningkatan dan inovasi berkelanjutan, Anda dapat mencapai tujuan berikut:
- Mempercepat inovasi: Jelajahi teknologi dan layanan baru untuk meningkatkan kemampuan dan mendorong diferensiasi.
- Mengurangi biaya: Identifikasi dan hapus inefisiensi melalui inisiatif peningkatan proses.
- Meningkatkan ketangkasan: Beradaptasi dengan cepat terhadap perubahan permintaan pasar dan kebutuhan pelanggan.
- Meningkatkan pengambilan keputusan: Dapatkan insight berharga dari data dan analisis untuk membuat keputusan berbasis data.
Organisasi yang menerapkan prinsip peningkatan berkelanjutan dan inovasi dapat memaksimalkan potensi lingkungan cloud dan mencapai pertumbuhan yang berkelanjutan. Prinsip ini terutama dipetakan ke area fokus kesiapan operasional Tenaga Kerja. Budaya inovasi memungkinkan tim bereksperimen dengan alat dan teknologi baru untuk memperluas kemampuan dan mengurangi biaya.
Rekomendasi
Untuk terus meningkatkan dan berinovasi pada workload cloud Anda, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Membina budaya pembelajaran
Dorong tim untuk bereksperimen, berbagi pengetahuan, dan terus belajar. Terapkan budaya tanpa menyalahkan, di mana kegagalan dipandang sebagai peluang untuk pertumbuhan dan peningkatan. Rekomendasi ini relevan dengan area fokus kesiapan operasional tenaga kerja.
Jika Anda mendorong budaya belajar, tim dapat belajar dari kesalahan dan melakukan iterasi dengan cepat. Pendekatan ini mendorong anggota tim untuk mengambil risiko, bereksperimen dengan ide-ide baru, dan memperluas batasan pekerjaan mereka. Hal ini juga menciptakan lingkungan yang aman secara psikologis, tempat individu merasa nyaman berbagi kegagalan dan belajar darinya. Berbagi dengan cara ini akan menghasilkan lingkungan yang lebih terbuka dan kolaboratif.
Untuk memfasilitasi berbagi pengetahuan dan pembelajaran berkelanjutan, ciptakan peluang bagi tim untuk berbagi pengetahuan dan belajar dari satu sama lain. Anda dapat melakukannya melalui sesi dan konferensi pembelajaran informal dan formal.
Dengan memupuk budaya eksperimen, berbagi pengetahuan, dan pembelajaran berkelanjutan, Anda dapat menciptakan lingkungan yang memungkinkan tim mengambil risiko, berinovasi, dan berkembang. Lingkungan ini dapat meningkatkan produktivitas, meningkatkan kemampuan pemecahan masalah, dan tenaga kerja yang lebih terlibat dan termotivasi. Selain itu, dengan mempromosikan budaya tanpa menyalahkan, Anda dapat menciptakan ruang yang aman bagi karyawan untuk belajar dari kesalahan dan berkontribusi pada pengetahuan kolektif tim. Budaya ini pada akhirnya menghasilkan tenaga kerja yang lebih tangguh dan mudah beradaptasi, serta lebih siap menangani tantangan dan mendorong kesuksesan dalam jangka panjang.
Melakukan retrospektif secara rutin
Retrospektif memberi tim kesempatan untuk merenungkan pengalaman mereka, mengidentifikasi hal yang berjalan dengan baik, dan mengidentifikasi hal yang dapat ditingkatkan. Dengan melakukan retrospective setelah project atau insiden besar, tim dapat belajar dari keberhasilan dan kegagalan, serta terus meningkatkan proses dan praktik mereka. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan tata kelola.
Cara efektif untuk menyusun retrospektif adalah dengan menggunakan model Mulai-Berhenti-Lanjutkan:
- Mulai: Pada fase Mulai dalam retrospektif, anggota tim mengidentifikasi praktik, proses, dan perilaku baru yang mereka yakini dapat meningkatkan kualitas pekerjaan mereka. Mereka membahas alasan perubahan diperlukan dan cara menerapkan perubahan tersebut.
- Berhenti: Pada fase Berhenti, anggota tim mengidentifikasi dan menghilangkan praktik, proses, dan perilaku yang tidak lagi efektif atau menghambat progres. Mereka membahas mengapa perubahan ini diperlukan dan bagaimana perubahan tersebut dapat diterapkan.
- Lanjutkan: Pada fase Lanjutkan, anggota tim mengidentifikasi praktik, proses, dan perilaku yang berfungsi dengan baik dan harus dilanjutkan. Mereka membahas alasan elemen-elemen ini penting dan cara memperkuatnya.
Dengan menggunakan format terstruktur seperti model Mulai-Berhenti-Lanjutkan, tim dapat memastikan bahwa retrospektif produktif dan terfokus. Model ini membantu memfasilitasi diskusi, mengidentifikasi poin utama, dan mengidentifikasi langkah-langkah yang dapat ditindaklanjuti untuk peningkatan di masa mendatang.
Mendapatkan informasi terbaru tentang teknologi cloud
Untuk memaksimalkan potensi layanan Google Cloud , Anda harus mengikuti perkembangan, fitur, dan praktik terbaik terbaru. Rekomendasi ini relevan dengan area fokus kesiapan operasional tenaga kerja.
Mengikuti konferensi, webinar, dan sesi pelatihan yang relevan adalah cara yang berharga untuk memperluas pengetahuan Anda. Acara ini memberikan peluang untuk belajar dari Google Cloud para pakar, memahami kemampuan baru, dan berinteraksi dengan rekan industri yang mungkin menghadapi tantangan serupa. Dengan menghadiri sesi ini, Anda dapat memperoleh insight tentang cara menggunakan fitur baru secara efektif, mengoptimalkan operasi cloud, dan mendorong inovasi dalam organisasi Anda.
Untuk memastikan anggota tim Anda terus mengikuti perkembangan teknologi cloud, dorong mereka untuk mendapatkan sertifikasi dan menghadiri kursus pelatihan. Google Cloudmenawarkan berbagai sertifikasi yang memvalidasi keterampilan dan pengetahuan di domain cloud tertentu. Memperoleh sertifikasi ini menunjukkan komitmen terhadap keunggulan dan memberikan bukti nyata kecakapan dalam teknologi cloud. Kursus pelatihan yang ditawarkan oleh Google Cloud dan partner kami membahas lebih dalam topik tertentu. Lab interaktif memberikan pengalaman langsung dan keterampilan praktis yang dapat langsung diterapkan ke project di dunia nyata. Dengan berinvestasi dalam pengembangan profesional tim, Anda dapat memupuk budaya pembelajaran berkelanjutan dan memastikan bahwa semua orang memiliki keterampilan yang diperlukan untuk sukses di cloud.
Secara aktif mencari dan menerapkan masukan
Kumpulkan masukan dari pengguna, pemangku kepentingan, dan anggota tim. Gunakan masukan tersebut untuk mengidentifikasi peluang guna meningkatkan solusi cloud Anda. Rekomendasi ini relevan dengan area fokus kesiapan operasional tenaga kerja.
Masukan yang Anda kumpulkan dapat membantu Anda memahami kebutuhan, masalah, dan ekspektasi pengguna solusi Anda yang terus berkembang. Masukan ini berfungsi sebagai input yang berharga untuk mendorong peningkatan dan memprioritaskan peningkatan di masa mendatang. Anda dapat menggunakan berbagai mekanisme untuk mengumpulkan masukan:
- Survei adalah cara efektif untuk mengumpulkan data kuantitatif dari pengguna dan pemangku kepentingan dalam jumlah besar.
- Wawancara pengguna memberikan peluang untuk pengumpulan data kualitatif yang mendalam. Wawancara memungkinkan Anda memahami tantangan dan pengalaman spesifik dari setiap pengguna.
- Formulir masukan yang ditempatkan dalam solusi cloud menawarkan cara yang mudah bagi pengguna untuk memberikan masukan langsung tentang pengalaman mereka.
- Rapat rutin dengan anggota tim dapat memfasilitasi pengumpulan umpan balik tentang aspek teknis dan tantangan penerapan.
Masukan yang Anda kumpulkan melalui mekanisme ini harus dianalisis dan disintesis untuk mengidentifikasi tema dan pola umum. Analisis ini dapat membantu Anda memprioritaskan peningkatan di masa mendatang berdasarkan dampak dan kelayakan peningkatan yang disarankan. Dengan mengatasi kebutuhan dan masalah yang diidentifikasi melalui masukan, Anda dapat memastikan bahwa solusi cloud Anda terus memenuhi persyaratan pengguna dan pemangku kepentingan yang terus berkembang.
Mengukur dan melacak progres
Indikator performa utama (KPI) dan metrik sangat penting untuk melacak progres dan mengukur efektivitas operasi cloud Anda. KPI adalah pengukuran yang dapat diukur dan mencerminkan performa secara keseluruhan. Metrik adalah titik data tertentu yang berkontribusi pada penghitungan KPI. Tinjau metrik secara rutin dan gunakan untuk mengidentifikasi peluang peningkatan dan mengukur progres. Tindakan ini membantu Anda terus meningkatkan dan mengoptimalkan lingkungan cloud. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tata kelola dan proses.
Manfaat utama penggunaan KPI dan metrik adalah memungkinkan organisasi Anda menggunakan pendekatan berbasis data untuk operasi cloud. Dengan melacak dan menganalisis data operasional, Anda dapat membuat keputusan yang tepat tentang cara meningkatkan lingkungan cloud. Pendekatan berbasis data ini membantu Anda mengidentifikasi tren, pola, dan anomali yang mungkin tidak terlihat tanpa penggunaan metrik sistematis.
Untuk mengumpulkan dan menganalisis data operasional, Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery. Cloud Monitoring memungkinkan pemantauan resource dan layanan cloud secara real time. BigQuery memungkinkan Anda menyimpan dan menganalisis data yang dikumpulkan melalui pemantauan. Dengan menggunakan alat ini bersama-sama, Anda dapat membuat dasbor kustom untuk memvisualisasikan metrik dan tren penting.
Dasbor operasional dapat memberikan tampilan terpusat tentang metrik yang paling penting, yang memungkinkan Anda mengidentifikasi dengan cepat area mana pun yang perlu diperhatikan. Misalnya, dasbor dapat menyertakan metrik seperti penggunaan CPU, penggunaan memori, traffic jaringan, dan latensi untuk aplikasi atau layanan tertentu. Dengan memantau metrik ini, Anda dapat dengan cepat mengidentifikasi potensi masalah dan mengambil langkah untuk mengatasinya.