Dokumen ini menjelaskan cara periode penyelarasan dan periode pengujian ulang menentukan kapan kondisi terpenuhi, cara kebijakan pemberitahuan menggabungkan beberapa kondisi, dan cara kebijakan pemberitahuan mengganti titik data yang hilang. Laporan ini juga menjelaskan jumlah maksimum insiden terbuka untuk kebijakan, jumlah notifikasi per insiden, dan penyebab penundaan notifikasi.
Konten ini tidak berlaku untuk kebijakan pemberitahuan berbasis log. Untuk informasi tentang kebijakan pemberitahuan berbasis log, lihat Memantau log.
Periode perataan dan periode pengujian ulang
Cloud Monitoring mengevaluasi periode penyelarasan dan periode pengujian ulang saat menentukan apakah kondisi kebijakan pemberitahuan telah terpenuhi.
Periode penyelarasan
Sebelum dipantau oleh kebijakan pemberitahuan, data deret waktu harus diregulasi sehingga kebijakan pemberitahuan memiliki data yang diatur secara berkala untuk dievaluasi. Proses regularisasi disebut penyelarasan.
Penyelarasan melibatkan dua langkah:
Membagi deret waktu menjadi interval waktu reguler, yang juga disebut pengelompokan data. Interval adalah periode penyelarasan.
Menghitung satu nilai untuk titik dalam periode penyelarasan. Anda memilih cara penghitungan satu titik tersebut; Anda dapat menjumlahkan semua nilai, atau menghitung rata-ratanya, atau menggunakan nilai maksimum. Fungsi yang menggabungkan titik data disebut aligner. Hasil kombinasi ini disebut nilai yang diselaraskan.
Untuk mengetahui informasi selengkapnya tentang perataan, lihat Perataan: regulasi dalam seri.
Misalnya, jika periode penyelarasan adalah lima menit, pada pukul 13.00, periode penyelarasan akan berisi sampel yang diterima antara pukul 23.55 dan 13.00. Pada pukul 13.01, periode perataan bergeser satu menit dan berisi sampel yang diterima antara pukul 12.56 dan 13.01.
Pemantauan mengonfigurasi periode penyelarasan sebagai berikut:
Konsol Google Cloud
Anda mengonfigurasi periode penyelarasan dengan memilih nilai untuk kolom berikut di halaman Kondisi pemberitahuan:
- Periode bergulir: Menentukan rentang waktu yang akan dievaluasi.
- Fungsi rolling window: Menentukan fungsi matematika yang akan dilakukan pada jendela titik data.
Untuk informasi selengkapnya tentang fungsi yang tersedia,
lihat Aligner
dalam referensi API. Beberapa fungsi penyelaras
menyesuaikan data
dan mengonversinya dari satu jenis atau jenis metrik ke jenis atau jenis metrik lainnya. Untuk penjelasan
mendetail, lihat Jenis, jenis, dan konversi.
API
Anda mengonfigurasi periode perataan dengan menetapkan
kolom aggregations.alignmentPeriod
dan aggregations.perSeriesAligner
dalam struktur MetricThreshold
dan
MetricAbsence
.
Untuk informasi selengkapnya tentang fungsi yang tersedia,
lihat Aligner
dalam referensi API. Beberapa fungsi penyelaras
menyesuaikan data
dan mengonversinya dari satu jenis atau jenis metrik ke jenis atau jenis metrik lainnya. Untuk penjelasan
mendetail, lihat Jenis, jenis, dan konversi.
Untuk mengilustrasikan efek periode penyelarasan pada kondisi dalam kebijakan pemberitahuan, pertimbangkan kondisi nilai minimum metrik yang memantau metrik dengan periode pengambilan sampel satu menit. Asumsikan bahwa periode penyelarasan disetel ke lima menit dan penyelaras disetel ke sum
. Selain itu, asumsikan bahwa kondisi terpenuhi
saat nilai deret waktu yang diselaraskan lebih besar dari dua selama
setidaknya tiga menit, dan kondisi tersebut dievaluasi setiap menit.
Dalam contoh ini, periode perataan adalah dua menit, dan periode pengujian ulang,
yang dijelaskan di bagian berikutnya, adalah tiga menit.
Gambar berikut mengilustrasikan beberapa evaluasi berurutan terhadap
kondisi:
Setiap baris dalam gambar mengilustrasikan satu evaluasi kondisi. Data deret waktu akan ditampilkan. Titik dalam periode perataan ditampilkan dengan
titik biru; titik yang lebih lama berwarna hitam. Setiap baris menampilkan nilai yang diselaraskan dan
apakah nilai ini lebih besar dari nilai minimum dua. Untuk baris berlabel
start
, nilai yang diselaraskan dihitung menjadi satu, yang kurang dari nilai minimum.
Pada evaluasi berikutnya, jumlah sampel dalam periode penyelarasan adalah dua.
Pada evaluasi ketiga, jumlahnya adalah tiga, dan karena nilai ini
lebih besar dari nilai minimum, timer untuk periode pengujian ulang dimulai.
Periode pengujian ulang
Kondisi kebijakan pemberitahuan memiliki periode pengujian ulang, yang mencegah kondisi terpenuhi karena satu pengukuran atau perkiraan. Misalnya, asumsikan bahwa periode pengujian ulang kondisi ditetapkan ke 15 menit. Berikut ini penjelasan perilaku kondisi berdasarkan jenisnya:
- Kondisi nilai minimum metrik terpenuhi jika, untuk satu deret waktu, setiap pengukuran yang diselaraskan dalam interval 15 menit melanggar nilai minimum.
- Kondisi tidak adanya metrik terpenuhi jika tidak ada data yang masuk untuk deret waktu dalam interval 15 menit.
- Kondisi perkiraan terpenuhi jika setiap perkiraan yang dihasilkan selama periode 15 menit memprediksi bahwa deret waktu akan melanggar nilai minimum dalam periode perkiraan.
Untuk kebijakan dengan satu kondisi, insiden akan dibuka dan notifikasi akan dikirim saat kondisi terpenuhi. Insiden ini tetap terbuka selama kondisi terus terpenuhi.
Konsol Google Cloud
Anda mengonfigurasi periode pengujian ulang menggunakan kolom Retest window di langkah Configure alert trigger.
API
Anda mengonfigurasi periode pengujian ulang dengan menetapkan kolom yang disebut
duration
dalam struktur MetricThreshold
dan
MetricAbsence
.
Gambar sebelumnya mengilustrasikan tiga evaluasi kondisi nilai minimum metrik. Pada
waktu start + 2 minutes
, nilai yang diselaraskan lebih besar dari nilai minimum;
tetapi, kondisinya tidak terpenuhi karena periode pengujian ulang ditetapkan ke
tiga menit. Gambar berikut mengilustrasikan hasil untuk evaluasi
kondisi berikutnya:
Meskipun nilai yang diselaraskan lebih besar dari nilai minimum pada waktu start + 2 minutes
, kondisi tidak terpenuhi hingga nilai yang diselaraskan lebih besar dari nilai minimum selama tiga menit. Peristiwa tersebut terjadi pada waktu
start + 5 minutes
.
Kondisi mereset periode pengujian ulang setiap kali pengukuran atau perkiraan tidak memenuhi kondisi. Perilaku ini diilustrasikan dalam contoh berikut:
Contoh: Kebijakan pemberitahuan ini berisi satu kondisi nilai minimum metrik yang menentukan periode pengujian ulang lima menit.
Jika latensi respons HTTP lebih dari dua detik,
dan jika latensi lebih besar dari nilai minimum selama lima menit,
buka insiden dan kirim email ke tim dukungan Anda.Urutan berikut menggambarkan pengaruh periode pengujian ulang terhadap evaluasi kondisi:
- Latensi HTTP kurang dari dua detik.
- Selama tiga menit berturut-turut berikutnya, latensi HTTP lebih besar dari dua detik.
- Pada pengukuran berikutnya, latensi kurang dari dua detik, sehingga kondisi mereset periode pengujian ulang.
Selama lima menit berturut-turut berikutnya, latensi HTTP lebih besar dari dua detik, sehingga kondisi terpenuhi.
Karena kebijakan pemberitahuan memiliki satu kondisi, Monitoring akan mengirim notifikasi saat kondisi terpenuhi.
Tetapkan periode pengujian ulang agar cukup lama untuk meminimalkan positif palsu, tetapi cukup singkat untuk memastikan insiden dibuka secara tepat waktu.
Praktik terbaik untuk menetapkan periode penyelarasan dan periode pengujian ulang
Periode penyelarasan menentukan jumlah sampel yang digabungkan dengan penyelaras:
Nilai minimum periode penyelarasan untuk jenis metrik adalah periode sampling jenis metrik tersebut. Misalnya, jika jenis metrik diambil sampelnya setiap 300 detik, periode perataan harus minimal 300 detik. Namun, jika Anda ingin menggabungkan 5 sampel, tetapkan periode perataan ke 5 * 300 detik atau 1.500 detik.
Nilai maksimum periode penyelarasan adalah 24 jam dikurangi penundaan penyerapan jenis metrik. Misalnya, jika penundaan penyerapan untuk metrik adalah 6 jam, nilai maksimum periode penyelarasan adalah 18 jam.
Gunakan periode pengujian ulang untuk menentukan responsivitas pemberitahuan. Misalnya, jika Anda menetapkan periode pengujian ulang ke 20 menit untuk kondisi tidak ada metrik, maka tidak boleh ada data selama 20 menit sebelum kondisi terpenuhi. Untuk kebijakan pemberitahuan yang lebih responsif, tetapkan periode pengujian ulang ke nilai yang lebih kecil. Untuk kondisi batas metrik, agar memiliki kebijakan pemberitahuan yang paling responsif, tetapkan periode pengujian ulang ke nol. Satu nilai yang diselaraskan menyebabkan jenis kondisi ini terpenuhi.
Kondisi kebijakan pemberitahuan dievaluasi dengan frekuensi tetap. Pilihan yang Anda buat untuk periode penyelarasan dan periode pengujian ulang tidak menentukan seberapa sering kondisi dievaluasi.
Kebijakan dengan beberapa kondisi
Kebijakan pemberitahuan dapat berisi hingga 6 kondisi.
Jika menggunakan Cloud Monitoring API atau jika kebijakan pemberitahuan memiliki beberapa kondisi, Anda harus menentukan kapan insiden dibuka. Untuk mengonfigurasi cara menggabungkan beberapa kondisi, lakukan salah satu hal berikut:
Konsol Google Cloud
Anda mengonfigurasi opsi penggabungan di langkah Multi-condition trigger.
API
Anda mengonfigurasi opsi penggabungan dengan kolom combiner
dari
struktur AlertPolicy
.
Tabel ini mencantumkan setelan di konsol Google Cloud, nilai yang setara di Cloud Monitoring API, dan deskripsi setiap setelan:
Konsol Google Cloud Nilai pemicu kebijakan |
Nilai penggabungan Cloud Monitoring API |
Arti |
---|---|---|
Kondisi apa pun terpenuhi | OR |
Insiden akan dibuka jika ada resource yang menyebabkan salah satu kondisi terpenuhi. |
Semua kondisi terpenuhi bahkan untuk resource yang berbeda untuk setiap kondisi (default) |
AND |
Insiden akan dibuka jika setiap kondisi terpenuhi, meskipun resource yang menyebabkan kondisi tersebut terpenuhi bersifat berbeda. |
Semua kondisi terpenuhi | AND_WITH_MATCHING_RESOURCE |
Insiden akan dibuka jika resource yang sama menyebabkan setiap kondisi terpenuhi. Setelan ini adalah pilihan penggabungan yang paling ketat. |
Dalam konteks ini, istilah met
berarti konfigurasi kondisi dievaluasi menjadi true. Misalnya, jika konfigurasinya adalah Any time series is greater than 10 for 5 minutes
, maka saat pernyataan ini dievaluasi menjadi true, kondisi terpenuhi.
Contoh
Pertimbangkan project Google Cloud yang berisi dua instance VM, vm1 dan vm2. Selain itu, asumsikan bahwa Anda membuat kebijakan pemberitahuan dengan 2 kondisi:
- Kondisi bernama
CPU usage is too high
memantau penggunaan CPU instance. Kondisi ini terpenuhi jika penggunaan CPU instance apa pun lebih besar dari 100 md/s selama 1 menit. - Kondisi bernama
Excessive utilization
memantau penggunaan CPU instance. Kondisi ini terpenuhi jika penggunaan CPU instance apa pun lebih besar dari 60% selama 1 menit.
Awalnya, asumsikan bahwa kedua kondisi bernilai false.
Selanjutnya, asumsikan bahwa penggunaan CPU vm1 melebihi 100 md/s selama 1 menit. Karena
penggunaan CPU lebih besar dari nilai minimum selama satu menit, kondisi
CPU usage is too high
terpenuhi. Jika kondisi digabungkan dengan Any condition is met, insiden akan dibuat karena kondisi terpenuhi. Jika kondisi digabungkan dengan
Semua kondisi terpenuhi atau
Semua kondisi terpenuhi bahkan untuk resource yang berbeda untuk setiap kondisi,
insiden tidak akan dibuat. Pilihan penggabungan ini mengharuskan kedua
kondisi terpenuhi.
Selanjutnya, asumsikan bahwa penggunaan CPU vm1 tetap lebih besar dari 100 md/s dan pemakaian CPU vm2 melebihi 60% selama 1 menit. Hasilnya adalah kedua kondisi terpenuhi. Berikut ini penjelasan tentang apa yang terjadi berdasarkan cara penggabungan kondisi:
Semua kondisi terpenuhi: Insiden dibuat saat resource menyebabkan kondisi terpenuhi. Dalam contoh ini, vm2 menyebabkan kondisi
Excessive utilization
terpenuhi.Jika vm2 menyebabkan kondisi
CPU usage is too high
terpenuhi, hal itu juga akan mengakibatkan insiden dibuat. Insiden dibuat karena vm1 dan vm2 yang menyebabkan kondisiCPU usage is too high
terpenuhi adalah peristiwa yang berbeda.Semua kondisi terpenuhi bahkan untuk resource yang berbeda untuk setiap kondisi: Insiden dibuat karena kedua kondisi terpenuhi.
Semua kondisi terpenuhi: Insiden tidak dibuat karena penggabungan ini memerlukan resource yang sama untuk menyebabkan semua kondisi terpenuhi. Dalam contoh ini, tidak ada insiden yang dibuat karena vm1 menyebabkan
CPU usage is too high
terpenuhi sedangkan vm2 menyebabkanExcessive utilization
terpenuhi.
Data metrik sebagian
Jika data deret waktu berhenti diterima atau jika data tertunda, Pemantauan akan mengklasifikasikan data sebagai tidak ada. Data yang tidak ada dapat mencegah insiden ditutup. Keterlambatan data yang diterima dari penyedia cloud pihak ketiga dapat mencapai 30 menit, dengan keterlambatan 5-15 menit yang paling umum. Penundaan yang lama—lebih lama dari periode pengujian ulang—dapat menyebabkan kondisi memasuki status "tidak diketahui". Saat data akhirnya tiba, Pemantauan mungkin telah kehilangan beberapa histori kondisi terbaru. Pemeriksaan data deret waktu di lain waktu mungkin tidak mengungkapkan masalah ini karena tidak ada bukti keterlambatan setelah data tiba.
Konsol Google Cloud
Anda dapat mengonfigurasi cara Monitoring mengevaluasi kondisi nilai minimum metrik saat data berhenti masuk. Misalnya, saat insiden terbuka dan pengukuran yang diharapkan tidak tiba, apakah Anda ingin Pemantauan membiarkan insiden terbuka atau segera menutupnya? Demikian pula, saat data berhenti masuk dan tidak ada insiden yang terbuka, apakah Anda ingin insiden dibuka? Terakhir, berapa lama insiden harus tetap terbuka setelah data berhenti masuk?
Ada dua kolom yang dapat dikonfigurasi yang menentukan cara Monitoring mengevaluasi kondisi batas metrik saat data berhenti masuk:
Untuk mengonfigurasi cara Pemantauan menentukan nilai penggantian untuk data yang hilang, gunakan kolom Evaluasi data yang hilang yang Anda tetapkan di langkah Pemicu kondisi. Kolom ini dinonaktifkan jika periode pengujian ulang ditetapkan ke Tidak ada pengujian ulang.
Periode pengujian ulang adalah kolom yang disebut durasi di Cloud Monitoring API.
Untuk mengonfigurasi waktu tunggu Monitoring sebelum menutup insiden yang terbuka setelah data berhenti masuk, gunakan kolom Durasi penutupan insiden otomatis. Anda menetapkan durasi penutupan otomatis di langkah Notifikasi. Durasi penutupan otomatis default adalah tujuh hari.
Berikut ini penjelasan berbagai opsi untuk kolom data yang tidak ada:
Konsol Google Cloud Kolom "Evaluasi data yang tidak ada" |
Ringkasan | Detail |
---|---|---|
Data tidak ada kosong | Insiden terbuka tetap terbuka. Insiden baru tidak dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut akan terus terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan tetap terbuka. Saat insiden terbuka dan tidak ada data yang masuk, penghitung waktu tutup otomatis akan dimulai setelah penundaan minimal 15 menit. Jika timer berakhir, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, kondisi tersebut akan terus tidak terpenuhi saat data berhenti masuk. |
Titik data yang hilang diperlakukan sebagai nilai yang melanggar kondisi kebijakan | Insiden terbuka tetap terbuka. Insiden baru dapat dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut akan terus terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan tetap terbuka. Jika insiden terbuka dan tidak ada data yang masuk selama durasi penutupan otomatis ditambah 24 jam, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, setelan ini menyebabkan
kondisi nilai minimum metrik berperilaku seperti |
Titik data yang tidak ada diperlakukan sebagai nilai yang tidak melanggar kondisi kebijakan | Insiden terbuka ditutup. Insiden baru tidak dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut berhenti terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, kondisi tersebut akan terus tidak terpenuhi saat data berhenti masuk. |
API
Anda dapat mengonfigurasi cara Monitoring mengevaluasi kondisi nilai minimum metrik saat data berhenti masuk. Misalnya, saat insiden terbuka dan pengukuran yang diharapkan tidak tiba, apakah Anda ingin Pemantauan membiarkan insiden terbuka atau segera menutupnya? Demikian pula, saat data berhenti masuk dan tidak ada insiden yang terbuka, apakah Anda ingin insiden dibuka? Terakhir, berapa lama insiden harus tetap terbuka setelah data berhenti masuk?
Ada dua kolom yang dapat dikonfigurasi yang menentukan cara Monitoring mengevaluasi kondisi batas metrik saat data berhenti masuk:
Untuk mengonfigurasi cara Monitoring menentukan nilai penggantian untuk data yang hilang, gunakan kolom
evaluationMissingData
dari strukturMetricThreshold
. Kolom ini diabaikan jika kolomduration
bernilai nol.Untuk mengonfigurasi berapa lama Monitoring menunggu sebelum menutup insiden yang terbuka setelah data berhenti masuk, gunakan kolom
autoClose
dalam strukturAlertStrategy
.
Berikut ini penjelasan berbagai opsi untuk kolom data yang tidak ada:
Kolom APIevaluationMissingData |
Ringkasan | Detail |
---|---|---|
EVALUATION_MISSING_DATA_UNSPECIFIED |
Insiden terbuka tetap terbuka. Insiden baru tidak dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut akan terus terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan tetap terbuka. Saat insiden terbuka dan tidak ada data yang masuk, penghitung waktu tutup otomatis akan dimulai setelah penundaan minimal 15 menit. Jika timer berakhir, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, kondisi tersebut akan terus tidak terpenuhi saat data berhenti masuk. |
EVALUATION_MISSING_DATA_ACTIVE |
Insiden terbuka tetap terbuka. Insiden baru dapat dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut akan terus terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan tetap terbuka. Jika insiden terbuka dan tidak ada data yang masuk selama durasi penutupan otomatis ditambah 24 jam, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, setelan ini menyebabkan
kondisi nilai minimum metrik berperilaku seperti |
EVALUATION_MISSING_DATA_INACTIVE |
Insiden terbuka ditutup. Insiden baru tidak dibuka. |
Untuk kondisi yang terpenuhi, kondisi tersebut berhenti terpenuhi saat data berhenti masuk. Jika insiden terbuka untuk kondisi ini, insiden akan ditutup. Untuk kondisi yang tidak terpenuhi, kondisi tersebut akan terus tidak terpenuhi saat data berhenti masuk. |
Anda dapat meminimalkan masalah karena data yang tidak ada dengan melakukan salah satu hal berikut:
- Hubungi penyedia cloud pihak ketiga Anda untuk mengidentifikasi cara mengurangi latensi pengumpulan metrik.
- Gunakan periode pengujian ulang yang lebih lama dalam kondisi Anda. Menggunakan periode pengujian ulang yang lebih lama memiliki kelemahan karena membuat kebijakan pemberitahuan Anda kurang responsif.
Pilih metrik yang memiliki penundaan pengumpulan yang lebih rendah:
- Memantau metrik agen, terutama saat agen berjalan di instance VM di cloud pihak ketiga.
- Metrik kustom, saat Anda menulis datanya langsung ke Pemantauan.
- Metrik berbasis log, jika pengumpulan entri log tidak tertunda.
Untuk informasi selengkapnya, lihat Ringkasan agen pemantauan, Ringkasan metrik yang ditentukan pengguna, dan metrik berbasis log.
Saat Pemantauan mengirim notifikasi dan membuat insiden
Cloud Monitoring mengirim notifikasi saat deret waktu menyebabkan kondisi terpenuhi. Notifikasi dikirim ke semua saluran notifikasi. Anda tidak dapat membatasi notifikasi ke channel tertentu atau ke sebagian saluran kebijakan Anda.
Jika Anda mengonfigurasi notifikasi berulang, notifikasi yang sama akan dikirim ulang ke saluran notifikasi tertentu untuk kebijakan pemberitahuan Anda.
Anda mungkin menerima beberapa notifikasi unik yang terkait dengan satu kebijakan pemberitahuan jika salah satu hal berikut berlaku:
Kondisi memantau beberapa deret waktu.
Kebijakan berisi beberapa kondisi. Dalam hal ini, notifikasi yang Anda terima bergantung pada nilai pemicu multi-kondisi kebijakan pemberitahuan:
Semua kondisi terpenuhi: Jika semua kondisi terpenuhi, untuk setiap deret waktu yang menghasilkan kondisi terpenuhi, kebijakan pemberitahuan akan mengirim notifikasi dan membuat insiden.
Anda tidak dapat mengonfigurasi Cloud Monitoring untuk hanya membuat satu insiden dan hanya mengirim satu notifikasi saat kebijakan pemberitahuan berisi beberapa kondisi.
Setiap kondisi terpenuhi: Kebijakan pemberitahuan mengirim notifikasi saat deret waktu menyebabkan kondisi terpenuhi.
Untuk mengetahui informasi selengkapnya, lihat Kebijakan dengan beberapa kondisi.
Kebijakan pemberitahuan yang dibuat menggunakan Cloud Monitoring API juga akan memberi tahu Anda saat kondisi terpenuhi dan saat kondisi berhenti terpenuhi. Kebijakan pemberitahuan yang dibuat menggunakan konsol Google Cloud tidak akan mengirim notifikasi saat kondisi berhenti terpenuhi, kecuali jika Anda telah mengaktifkan perilaku tersebut.
Saat Pemantauan tidak mengirim notifikasi atau membuat insiden
Dalam situasi berikut, Monitoring tidak membuat insiden atau mengirim notifikasi saat kondisi kebijakan pemberitahuan terpenuhi:
- Kebijakan pemberitahuan dinonaktifkan.
- Kebijakan pemberitahuan ditunda.
- Pemantauan telah mencapai batas jumlah maksimum insiden terbuka.
Kebijakan pemberitahuan yang dinonaktifkan
Pemantauan tidak akan membuat insiden atau mengirim notifikasi untuk kebijakan pemberitahuan yang dinonaktifkan. Namun, Pemantauan terus mengevaluasi kondisi kebijakan pemberitahuan yang dinonaktifkan.
Saat Anda mengaktifkan kebijakan yang dinonaktifkan, Pemantauan akan mengevaluasi nilai semua kondisi selama periode pengujian ulang terbaru. Periode pengujian ulang terbaru mungkin mencakup data yang diambil sebelum, selama, dan setelah kebijakan diaktifkan. Kondisi kebijakan yang dinonaktifkan dapat segera dipenuhi setelah melanjutkan kebijakan, bahkan dengan periode pengujian ulang yang besar.
Misalnya, Anda memiliki kebijakan pemberitahuan yang memantau proses tertentu dan Anda menonaktifkan kebijakan ini. Minggu berikutnya, proses tersebut berhenti, dan karena kebijakan pemberitahuan dinonaktifkan, Anda tidak akan diberi tahu. Jika Anda memulai ulang proses dan segera mengaktifkan kebijakan pemberitahuan, Monitoring akan mengenali bahwa proses tersebut belum aktif selama lima menit terakhir dan membuka insiden.
Insiden yang terkait dengan kebijakan pemberitahuan yang dinonaktifkan tetap terbuka hingga masa berlaku durasi penutupan otomatis kebijakan berakhir.
Menunda kebijakan pemberitahuan
Pemantauan tidak mengirim notifikasi atau membuat insiden untuk kebijakan pemberitahuan yang ditangguhkan. Sebaiknya tunda kebijakan pemberitahuan jika Anda ingin mencegah kebijakan pemberitahuan mengirim notifikasi hanya untuk interval singkat. Misalnya, sebelum melakukan pemeliharaan pada virtual machine (VM), Anda dapat membuat penundaan dan menambahkan kebijakan pemberitahuan yang memantau instance ke kriteria penundaan.
Saat Anda menunda kebijakan pemberitahuan, Monitoring akan menutup semua insiden terbuka yang terkait dengan kebijakan tersebut. Pemantauan dapat membuka insiden baru setelah penundaan berakhir. Untuk mengetahui informasinya, lihat Menunda notifikasi dan pemberitahuan.
Batasan notifikasi dan insiden terbuka
Kebijakan pemberitahuan dapat diterapkan ke banyak resource, dan masalah yang memengaruhi semua resource dapat menyebabkan kebijakan pemberitahuan membuka insiden untuk setiap resource. Insiden dibuka untuk setiap deret waktu yang menghasilkan kondisi yang terpenuhi.
Untuk mencegah kelebihan beban sistem, jumlah insiden yang dapat dibuka oleh satu kebijakan secara bersamaan dibatasi hingga 1.000.
Misalnya, pertimbangkan kebijakan yang berlaku untuk 2.000 instance Compute Engine, dan setiap instance menyebabkan kondisi pemberitahuan terpenuhi. Pemantauan membatasi jumlah insiden yang terbuka hingga 1.000. Kondisi lainnya yang terpenuhi akan diabaikan hingga beberapa insiden terbuka untuk kebijakan tersebut ditutup.
Akibat batas ini, satu saluran notifikasi dapat menerima hingga 1.000 notifikasi sekaligus. Jika kebijakan pemberitahuan Anda memiliki beberapa saluran notifikasi, batas ini berlaku untuk setiap saluran notifikasi secara terpisah.
Latensi
Latensi mengacu pada penundaan antara saat Monitoring mengambil sampel metrik dan saat titik data metrik terlihat sebagai data deret waktu. Latensi memengaruhi kapan notifikasi dikirim. Misalnya, jika metrik yang dipantau memiliki latensi hingga 180 detik, Pemantauan tidak akan membuat insiden hingga 180 detik setelah kondisi kebijakan pemberitahuan bernilai benar. Untuk mengetahui informasi selengkapnya, lihat Latensi data metrik.
Peristiwa dan setelan berikut berkontribusi pada latensi:
Penundaan pengumpulan metrik: Waktu yang diperlukan Monitoring untuk mengumpulkan nilai metrik. Untuk nilai Google Cloud, sebagian besar metrik tidak terlihat selama 60 detik setelah pengumpulan; namun, penundaan bergantung pada metrik. Komputasi kebijakan pemberitahuan memerlukan penundaan tambahan selama 60 hingga 90 detik. Untuk metrik AWS CloudWatch, penundaan visibilitas dapat berlangsung beberapa menit. Untuk pemeriksaan waktu aktif, waktu ini dapat rata-rata dua menit (dari akhir periode pengujian ulang).
Retest window: Periode yang dikonfigurasi untuk kondisi. Kondisi hanya terpenuhi jika kondisi tersebut benar selama periode pengujian ulang. Misalnya, setelan periode pengujian ulang lima menit menyebabkan keterlambatan notifikasi setidaknya lima menit sejak peristiwa pertama kali terjadi.
Waktu notifikasi tiba: Saluran notifikasi, seperti email dan SMS, mungkin mengalami latensi jaringan atau latensi lainnya (tidak terkait dengan yang dikirimkan), terkadang mendekati menit. Di beberapa saluran—seperti SMS dan Slack—tidak ada jaminan bahwa pesan akan dikirim.
Langkah selanjutnya
Untuk informasi tentang cara membuat kebijakan pemberitahuan, lihat dokumen berikut:
Untuk berbagai kebijakan pemberitahuan, lihat Contoh kebijakan.