Membuat Pemberitahuan yang Efisien

Last reviewed 2023-07-20 UTC

Dokumen dalam Framework Arsitektur Google Cloud memberikan prinsip operasional untuk membuat pemberitahuan yang membantu Anda menjalankan layanan yang andal. Semakin banyak informasi yang Anda miliki mengenai performa layanan, semakin tepat keputusan yang Anda ambil saat terjadi masalah. Desain pemberitahuan Anda untuk mendeteksi permasalahan sistem yang berdampak bagi pengguna lebih awal dan akurat serta meminimalkan positif palsu.

Optimalkan penundaan pemberitahuan

Ada keseimbangan antara pemberitahuan yang dikirim terlalu cepat sehingga membebani tim operasi dan pemberitahuan yang dikirim terlalu lambat serta menyebabkan pemadaman layanan yang lama. Sesuaikan penundaan pemberitahuan sebelum sistem pemantauan memberi tahu manusia tentang masalah tersebut untuk meminimalkan waktu deteksi, sekaligus memaksimalkan sinyal versus derau. Gunakan tingkat konsumsi anggaran error untuk mendapatkan konfigurasi pemberitahuan yang optimal.

Buat pemberitahuan untuk gejala, bukan penyebab

Picu pemberitahuan berdasarkan dampak langsung terhadap pengalaman pengguna. Ketidakpatuhan dengan SLO global atau per pelanggan dapat menunjukkan dampak langsung. Jangan membuat peringatan pada setiap kemungkinan penyebab kegagalan, terutama apabila dampaknya hanya terbatas pada satu replika. Sistem yang terdistribusi dengan baik dapat memulihkan kegagalan replika tunggal dengan lancar.

Buat pemberitahuan untuk nilai pencilan, bukan rata-rata

Saat memantau latensi tentukan SLO dan setel pemberitahuan menjadi (pilih dua dari tiga) yaitu persentil 90, 95, atau 99, bukan untuk latensi persentil 50 atau rata-rata. Nilai latensi rata-rata atau median yang baik dapat menyembunyikan nilai tinggi yang tidak dapat diterima pada persentil 90 atau lebih tinggi yang menyebabkan pengalaman sangat buruk bagi pengguna. Oleh karena itu, Anda harus menerapkan prinsip pemberitahuan nilai pencilan ini saat memantau latensi pada setiap operasi penting, seperti interaksi permintaan-respons dengan server web, penyelesaian batch di pipeline pemrosesan data, atau pembacaan maupun operasi tulis pada layanan penyimpanan.