Halaman ini diterjemahkan oleh Cloud Translation API.

Mengelola insiden dan masalah

Last reviewed 2024-10-31 UTC

Prinsip ini dalam pilar keunggulan operasional dari Google Cloud Framework Arsitektur memberikan rekomendasi untuk membantu Anda mengelola insiden dan masalah terkait workload cloud Anda. Hal ini melibatkan penerapan pemantauan dan visibilitas yang komprehensif, menetapkan prosedur respons insiden yang jelas, melakukan analisis akar masalah yang menyeluruh, dan menerapkan tindakan pencegahan. Banyak topik yang dibahas dalam prinsip ini dibahas secara mendetail dalam pilar Keandalan.

Ringkasan prinsip

Pengelolaan insiden dan pengelolaan masalah adalah komponen penting dari lingkungan operasi fungsional. Cara Anda merespons, mengategorikan, dan menyelesaikan insiden dengan tingkat keparahan yang berbeda dapat memengaruhi operasi Anda secara signifikan. Anda juga harus secara proaktif dan terus-menerus melakukan penyesuaian untuk mengoptimalkan keandalan dan performa. Proses yang efisien untuk pengelolaan insiden dan masalah bergantung pada elemen dasar berikut:

Pemantauan berkelanjutan: Mengidentifikasi dan menyelesaikan masalah dengan cepat.
Otomatisasi: Sederhanakan tugas dan tingkatkan efisiensi.
Orkestrasi: Mengkoordinasikan dan mengelola resource cloud secara efektif.
Insight berbasis data: Mengoptimalkan operasi cloud dan membuat keputusan yang tepat.

Elemen-elemen ini membantu Anda membangun lingkungan cloud yang tangguh dan dapat menangani berbagai tantangan dan gangguan. Elemen-elemen ini juga dapat membantu mengurangi risiko insiden dan downtime yang mahal, serta membantu Anda mencapai kelincahan dan kesuksesan bisnis yang lebih besar. Elemen dasar ini tersebar di empat area fokus kesiapan operasional: Tenaga Kerja, Proses, Alat, dan Tata Kelola.

Rekomendasi

Untuk mengelola insiden dan masalah secara efektif, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.

Menetapkan prosedur respons insiden yang jelas

Peran dan tanggung jawab yang jelas sangat penting untuk memastikan respons yang efektif dan terkoordinasi terhadap insiden. Selain itu, protokol komunikasi yang jelas dan jalur eskalasi membantu memastikan bahwa informasi dibagikan dengan cepat dan efektif selama insiden. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja, proses, dan alat.

Untuk menetapkan prosedur respons insiden, Anda perlu menentukan peran dan ekspektasi setiap anggota tim, seperti komandan insiden, penyelidik, komunikator, dan pakar teknis. Menetapkan jalur komunikasi dan eskalasi mencakup mengidentifikasi kontak penting, menyiapkan saluran komunikasi, dan menentukan proses untuk mengeskalasikan insiden ke tingkat manajemen yang lebih tinggi jika diperlukan. Pelatihan dan persiapan rutin membantu memastikan bahwa tim dibekali pengetahuan dan keterampilan untuk merespons insiden secara efektif.

Dengan mendokumentasikan prosedur respons insiden dalam runbook atau playbook, Anda dapat memberikan panduan referensi standar untuk diikuti tim selama insiden. Runbook harus menguraikan langkah-langkah yang akan diambil di setiap tahap proses respons insiden, termasuk komunikasi, triase, investigasi, dan penyelesaian. Panduan ini juga harus menyertakan informasi tentang alat dan referensi yang relevan serta informasi kontak untuk personel penting. Anda harus meninjau dan memperbarui runbook secara rutin untuk memastikannya tetap terbaru dan efektif.

Memusatkan pengelolaan insiden

Untuk pelacakan dan pengelolaan yang efektif selama siklus proses insiden, pertimbangkan untuk menggunakan sistem pengelolaan insiden terpusat. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Sistem pengelolaan insiden terpusat memberikan keuntungan berikut:

Visibilitas yang lebih baik: Dengan menggabungkan semua data terkait insiden di satu lokasi, Anda tidak perlu lagi melakukan penelusuran di berbagai saluran atau sistem untuk mendapatkan konteks. Pendekatan ini menghemat waktu dan mengurangi kebingungan, serta memberi pemangku kepentingan gambaran komprehensif tentang insiden, termasuk status, dampak, dan progresnya.
Koordinasi dan kolaborasi yang lebih baik: Sistem terpusat menyediakan platform terpadu untuk komunikasi dan pengelolaan tugas. Hal ini mendorong kolaborasi yang lancar antara berbagai departemen dan fungsi yang terlibat dalam respons insiden. Pendekatan ini memastikan bahwa semua orang memiliki akses ke informasi terbaru dan mengurangi risiko miskomunikasi dan ketidaksesuaian.
Peningkatan akuntabilitas dan kepemilikan: Sistem pengelolaan insiden terpusat memungkinkan organisasi Anda mengalokasikan tugas kepada individu atau tim tertentu dan memastikan bahwa tanggung jawab ditentukan dan dilacak dengan jelas. Pendekatan ini mendorong akuntabilitas dan mendorong pemecahan masalah yang proaktif karena anggota tim dapat dengan mudah memantau progres dan kontribusi mereka.

Sistem pengelolaan insiden terpusat harus menawarkan fitur yang andal untuk pelacakan insiden, penetapan tugas, dan pengelolaan komunikasi. Fitur ini memungkinkan Anda menyesuaikan alur kerja, menetapkan prioritas, dan berintegrasi dengan sistem lain, seperti alat pemantauan dan sistem tiket.

Dengan menerapkan sistem pengelolaan insiden terpusat, Anda dapat mengoptimalkan proses respons insiden organisasi, meningkatkan kolaborasi, dan meningkatkan visibilitas. Tindakan ini akan mempercepat waktu penyelesaian insiden, mengurangi periode nonaktif, dan meningkatkan kepuasan pelanggan. Hal ini juga membantu menumbuhkan budaya peningkatan berkelanjutan karena Anda dapat belajar dari insiden sebelumnya dan mengidentifikasi area yang perlu ditingkatkan.

Melakukan peninjauan pasca-insiden secara menyeluruh

Setelah insiden terjadi, Anda harus melakukan peninjauan pasca-insiden (PIR) yang mendetail, yang juga dikenal sebagai post-mortem, untuk mengidentifikasi akar penyebab, faktor yang berkontribusi, dan pelajaran yang didapat. Peninjauan mendetail ini membantu Anda mencegah insiden serupa di masa mendatang. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan tata kelola.

Proses PIR harus melibatkan tim multidisiplin yang memiliki keahlian dalam berbagai aspek insiden. Tim harus mengumpulkan semua informasi yang relevan melalui wawancara, peninjauan dokumentasi, dan inspeksi situs. Linimasa peristiwa harus dibuat untuk menetapkan urutan tindakan yang mengarah ke insiden.

Setelah tim mengumpulkan informasi yang diperlukan, mereka harus melakukan analisis akar masalah untuk menentukan faktor yang menyebabkan insiden. Analisis ini harus mengidentifikasi penyebab langsung dan masalah sistemis yang berkontribusi pada insiden.

Selain mengidentifikasi akar masalah, tim PIR harus mengidentifikasi faktor pendukung lainnya yang mungkin menyebabkan insiden. Faktor ini dapat mencakup kesalahan manusia, kegagalan peralatan, atau faktor organisasi seperti gangguan komunikasi dan kurangnya pelatihan.

Laporan PIR harus mendokumentasikan temuan investigasi, termasuk linimasa peristiwa, analisis akar masalah, dan tindakan yang direkomendasikan. Laporan ini adalah referensi yang berharga untuk menerapkan tindakan korektif dan mencegah terulangnya masalah. Laporan ini harus dibagikan kepada semua pemangku kepentingan yang relevan dan harus digunakan untuk mengembangkan pelatihan dan prosedur keamanan.

Untuk memastikan proses PIR yang berhasil, organisasi Anda harus memupuk budaya tanpa menyalahkan yang berfokus pada pembelajaran dan peningkatan, bukan menyalahkan. Budaya ini mendorong individu untuk melaporkan insiden tanpa takut diberi hukuman, dan memungkinkan Anda mengatasi masalah sistemis serta melakukan perbaikan yang signifikan.

Dengan melakukan PIR yang menyeluruh dan menerapkan tindakan korektif berdasarkan temuan, Anda dapat secara signifikan mengurangi risiko insiden serupa yang terjadi di masa mendatang. Pendekatan proaktif terhadap investigasi dan pencegahan insiden ini membantu menciptakan lingkungan kerja yang lebih aman dan efisien bagi semua pihak yang terlibat.

Mengelola pusat informasi

Pengetahuan dasar tentang masalah umum, solusi, dan panduan pemecahan masalah sangat penting untuk pengelolaan dan penyelesaian insiden. Anggota tim dapat menggunakan basis pengetahuan untuk mengidentifikasi dan mengatasi masalah umum dengan cepat. Menerapkan basis pengetahuan membantu mengurangi kebutuhan untuk melakukan eskalasi dan meningkatkan efisiensi secara keseluruhan. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja dan proses.

Manfaat utama dari pusat informasi adalah memungkinkan tim belajar dari pengalaman terdahulu dan menghindari pengulangan kesalahan. Dengan merekam dan membagikan solusi untuk masalah yang diketahui, tim dapat membangun pemahaman kolektif tentang cara menyelesaikan masalah umum dan praktik terbaik untuk pengelolaan insiden. Penggunaan basis pengetahuan menghemat waktu dan tenaga, serta membantu menstandarkan proses dan memastikan konsistensi dalam penyelesaian insiden.

Selain membantu meningkatkan waktu penyelesaian insiden, basis pengetahuan mendorong berbagi pengetahuan dan kolaborasi di seluruh tim. Dengan repositori informasi terpusat, tim dapat dengan mudah mengakses dan berkontribusi pada basis pengetahuan, yang mendorong budaya pembelajaran dan peningkatan berkelanjutan. Budaya ini mendorong tim untuk berbagi keahlian dan pengalaman mereka, sehingga menciptakan basis pengetahuan yang lebih komprehensif dan berharga.

Untuk membuat dan mengelola pusat informasi secara efektif, gunakan alat dan teknologi yang sesuai. Platform kolaborasi seperti Google Workspace sangat cocok untuk tujuan ini karena memungkinkan Anda membuat, mengedit, dan membagikan dokumen secara kolaboratif dengan mudah. Alat ini juga mendukung kontrol versi dan pelacakan perubahan, yang memastikan bahwa pustaka pengetahuan tetap terbaru dan akurat.

Buat pusat informasi mudah diakses oleh semua tim yang relevan. Anda dapat melakukannya dengan mengintegrasikan basis pengetahuan dengan sistem pengelolaan insiden yang ada atau dengan menyediakan portal atau situs intranet khusus. Dengan menyediakan pustaka informasi yang mudah diakses, tim dapat dengan cepat mengakses informasi yang mereka perlukan untuk menyelesaikan insiden secara efisien. Ketersediaan ini membantu mengurangi periode nonaktif dan meminimalkan dampak terhadap operasi bisnis.

Tinjau dan perbarui secara rutin pusat informasi untuk memastikannya tetap relevan dan bermanfaat. Pantau laporan insiden, identifikasi masalah dan tren umum, serta sertakan solusi baru dan panduan pemecahan masalah ke dalam basis pengetahuan. Pustaka pengetahuan terbaru membantu tim Anda menyelesaikan insiden dengan lebih cepat dan lebih efektif.

Mengotomatiskan respons insiden

Otomatisasi membantu menyederhanakan proses respons insiden dan perbaikan. Dengan begitu, Anda dapat mengatasi pelanggaran keamanan dan kegagalan sistem dengan cepat dan efisien. Dengan menggunakan Google Cloud produk seperti fungsi Cloud Run atau Cloud Run, Anda dapat mengotomatiskan berbagai tugas yang biasanya dilakukan secara manual dan memakan waktu. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Respons insiden otomatis memberikan manfaat berikut:

Pengurangan waktu deteksi dan penyelesaian insiden: Alat otomatis dapat terus memantau sistem dan aplikasi, mendeteksi aktivitas yang mencurigakan atau tidak wajar secara real time, dan memberi tahu pemangku kepentingan atau merespons tanpa intervensi. Dengan otomatisasi ini, Anda dapat mengidentifikasi potensi ancaman atau masalah sebelum berkembang menjadi insiden besar. Saat insiden terdeteksi, alat otomatis dapat memicu tindakan perbaikan yang telah ditentukan, seperti mengisolasi sistem yang terpengaruh, mengarantina file berbahaya, atau melakukan pembatalan perubahan untuk memulihkan sistem ke status yang diketahui aman.
Mengurangi beban tim keamanan dan operasi: Respons insiden otomatis memungkinkan tim keamanan dan operasi berfokus pada tugas yang lebih strategis. Dengan mengotomatiskan tugas rutin dan berulang, seperti mengumpulkan informasi diagnostik atau memicu pemberitahuan, organisasi Anda dapat membebaskan personel untuk menangani insiden yang lebih kompleks dan penting. Otomatisasi ini dapat meningkatkan efektivitas dan efisiensi respons insiden secara keseluruhan.
Peningkatan konsistensi dan akurasi proses perbaikan: Alat otomatis dapat memastikan bahwa tindakan perbaikan diterapkan secara seragam di semua sistem yang terpengaruh, sehingga meminimalkan risiko kesalahan manusia atau inkonsistensi. Standarisasi proses perbaikan ini membantu meminimalkan dampak insiden terhadap pengguna dan bisnis.

Sebelumnya

Memastikan kesiapan dan performa operasional menggunakan CloudOps

Berikutnya

Mengelola dan mengoptimalkan resource cloud