Memberi tahu tentang laju pembakaran

Anda dapat membuat kebijakan pemberitahuan di tujuan tingkat layanan (SLO) untuk memberitahukan apakah Anda berisiko melanggar SLO. Anda memilih SLO yang ingin dipantau, lalu mengonfigurasi kebijakan pemberitahuan untuk memantau SLO tersebut. Kondisi ini biasanya dinyatakan dengan memilih nilai minimum yang merupakan pelanggaran, dan jangka waktu untuk pelanggaran tersebut diizinkan. Jika nilai minimum terlampaui selama lebih dari periode yang diizinkan, kebijakan pemberitahuan akan dipicu.

Halaman ini menjelaskan pemberitahuan tentang tingkat pengeluaran anggaran error Anda. Topik ini tidak mencakup kebijakan pemberitahuan secara mendetail; tetapi mengasumsikan bahwa Anda sudah mengetahui konsep dasar kondisi dan saluran notifikasi.

Untuk mengetahui informasi umum tentang kebijakan pemberitahuan dan cara membuatnya, lihat Menggunakan kebijakan pemberitahuan.

Untuk langkah-langkah spesifik dalam membuat kebijakan pemberitahuan berbasis SLO, lihat artikel berikut:

Rasio penulisan anggaran error

Anggaran error Anda untuk periode kepatuhan adalah (1 - Sasaran SLO) × (peristiwa yang memenuhi syarat dalam periode kepatuhan). Jika sasaran SLO Anda adalah 95%, maka 5% dari peristiwa yang diukur oleh SLI Anda dapat mengalami kegagalan sebelum sasaran SLO Anda terlewat.

Rasio pembakaran memberi tahu Anda seberapa cepat Anda menghabiskan anggaran error selama periode kepatuhan. Laju pembakaran bergantung pada jumlah peristiwa yang memenuhi syarat dan jumlah peristiwa error yang diterima selama periode kepatuhan. Misalnya, jika tidak ada peristiwa error yang terjadi, anggaran error tidak akan digunakan dan rasio pembakaran adalah nol. Untuk contoh yang menggambarkan cara menghitung waktu nonaktif maksimum untuk suatu layanan dengan mengasumsikan bahwa semua permintaan gagal, lihat Laju pembakaran SLO.

Metrik laju burn-rate dinormalisasi sehingga laju pembakaran yang lebih besar dari satu menunjukkan bahwa jika tingkat error yang diukur dipertahankan selama periode kepatuhan di masa mendatang, layanan akan keluar dari SLO selama periode tersebut. Untuk informasi lebih lanjut, lihat Anggaran error.

Metrik kecepatan burn-rate diambil oleh pemilih deret waktu select_slo_burn_rate. Kebijakan pemberitahuan burn-rate memberi tahu Anda saat anggaran error digunakan lebih cepat daripada nilai minimum yang Anda tentukan, yang diukur selama periode kepatuhan pemberitahuan. Ada pemilih deret waktu lainnya; baca artikel Mengambil data SLO untuk informasi selengkapnya. Anda dapat membuat kebijakan pemberitahuan yang menggunakan beberapa pemilih deret waktu lain, tetapi Anda harus membuatnya dengan menggunakan Cloud Monitoring API.

Ringkasan pembuatan kebijakan pemberitahuan pada SLO

Cara membuat kebijakan pemberitahuan untuk SLO mirip dengan membuat kebijakan pemberitahuan untuk metrik. Bagian ini meninjau langkah-langkah umum dalam membuat kebijakan pemberitahuan.

Guna membuat kebijakan pemberitahuan untuk SLO, Anda dapat melakukan langkah-langkah berikut:

  1. Identifikasi SLO yang ingin Anda jadikan dasar kebijakan pemberitahuan.

  2. Buat kondisi untuk kebijakan pemberitahuan Anda yang menggunakan SLO yang dipilih. Dalam kondisi tersebut, Anda menentukan pemilih deret waktu yang akan digunakan dalam mengambil data SLO. Anda juga menentukan durasi, nilai minimum, dan perbandingan yang menentukan kapan SLO tidak mematuhi persyaratan.

    Misalnya, jika Anda menggunakan pemilih deret waktu untuk laju pengeluaran, data yang diambil mencerminkan laju pengeluaran anggaran error untuk SLO yang dipilih.

    Kondisi ini juga memungkinkan Anda menentukan batas dan durasi pelanggaran SLO sebelum memicu pemberitahuan. Misalnya, Anda ingin laju pembakaran berada di atas laju yang diinginkan selama beberapa periode sebelum memicu pemberitahuan. Nilai untuk "jumlah lebih besar" adalah nilai minimum kondisi, dan nilai untuk "periode tertentu" adalah durasi kondisi.

  3. Identifikasi atau buat saluran notifikasi untuk digunakan dalam kebijakan pemberitahuan Anda.

  4. Berikan dokumentasi yang menjelaskan kepada pengguna penyebab kebijakan pemberitahuan.

Untuk mengetahui informasi umum tentang kebijakan pemberitahuan dan cara membuatnya, lihat Menggunakan kebijakan pemberitahuan.

Kebijakan pemberitahuan dan periode lihat balik

Saat mengambil data SLO untuk kebijakan pemberitahuan, Anda harus menentukan ID untuk SLO dan periode lihat balik. Periode lihat balik menentukan seberapa jauh di waktu lampau untuk mengambil data. Yang terpenting, periode lihat balik juga digunakan sebagai periode kepatuhan untuk menghitung performa SLO dan anggaran error.

Saat ini, Anda tidak dapat mendasarkan pemberitahuan pada tingkat konsumsi anggaran error dari SLO menggunakan periode kepatuhan lebih dari 24 jam. Dalam banyak kasus, memperkirakan periode kepatuhan jangka panjang (misalnya, 28 atau 30 hari) dengan satu waktu kurang dari 24 jam sudah cukup untuk tujuan mendeteksi pemadaman layanan dan mendorong respons operasional jangka pendek Anda terhadap pemadaman tersebut.

Periode kepatuhan yang lebih singkat memberikan deteksi masalah yang lebih cepat, tetapi dengan peringatan bahwa perubahan besar pada traffic dan tingkat error dalam satu hari dapat mengakibatkan pemberitahuan yang terlalu sensitif selama periode dengan traffic rendah. Sebaiknya gunakan nilai minimum kecepatan burn-level yang jauh lebih besar dari 1 untuk mengurangi sensitivitas pemberitahuan selama waktu tersebut.

Jenis pemberitahuan anggaran error

Saat menyiapkan kebijakan pemberitahuan untuk memantau anggaran error, sebaiknya siapkan dua kebijakan pemberitahuan terkait:

  • Notifikasi Fast burn, yang memperingatkan Anda tentang perubahan konsumsi yang besar dan tiba-tiba yang, jika tidak dikoreksi, akan segera menghabiskan anggaran error Anda. “Dengan kecepatan ini, kami akan menghabiskan anggaran error sebulan penuh dalam dua hari!”

    Untuk peringatan kebakaran yang cepat, gunakan periode lihat balik yang lebih singkat sehingga Anda akan segera menerima pemberitahuan jika kondisi yang berpotensi menimbulkan bencana terjadi dan terus berlanjut, bahkan dalam waktu singkat. Jika ini benar-benar bencana, Anda tidak ingin menunggu lama untuk menyadarinya.

    Nilai minimum untuk tingkat konsumsi yang Anda laporkan di sini jauh lebih tinggi daripada ideal dasar untuk periode lihat balik.

  • Pemberitahuan Slow-burn, yang memperingatkan Anda tentang tingkat konsumsi yang, jika tidak berubah, menghabiskan anggaran error Anda sebelum akhir periode kepatuhan. Jenis kondisi ini kurang mendesak dibandingkan kondisi yang terbakar cepat. “Kami sedikit melampaui titik yang kami inginkan di bulan ini, tetapi belum ada masalah besar.”

    Untuk pemberitahuan pemborosan energi, gunakan periode lihat balik yang lebih lama untuk memperlancar variasi konsumsi jangka pendek.

    Nilai minimum yang Anda perhatikan pada pemberitahuan pembakaran lambat lebih tinggi daripada performa ideal untuk periode lihat balik, tetapi tidak lebih tinggi secara signifikan. Kebijakan yang didasarkan pada periode lihat balik yang lebih singkat dengan nilai minimum tinggi dapat menghasilkan terlalu banyak pemberitahuan, meskipun tingkat konsumsi jangka panjang keluar. Namun, jika pemakaian tetap terlalu tinggi untuk jangka waktu yang lebih lama, pemakaian semua anggaran error Anda akan habis.

Langkah berikutnya