- Kebijakan ditangguhkan atau dinonaktifkan.
- Rasio notifikasi maksimum akan melebihi batas 1 notifikasi setiap 5 menit untuk setiap kebijakan pemberitahuan berbasis log.
- Total notifikasi harian akan melebihi batas 20 notifikasi per hari untuk setiap kebijakan pemberitahuan berbasis log.
Untuk setiap insiden, Monitoring membuat halaman Detail insiden yang memungkinkan Anda mengelola insiden, dan melaporkan informasi insiden yang dapat membantu Anda memecahkan masalah kegagalan. Misalnya, halaman Detail insiden menampilkan linimasa insiden dan diagram yang menampilkan data metrik yang dipantau. Anda juga dapat menemukan link ke insiden dan entri log terkait.
Dokumen ini menjelaskan cara menemukan insiden. Panduan ini juga menjelaskan cara menggunakan halaman Detail insiden untuk mengelola insiden untuk kebijakan pemberitahuan berbasis metrik, yang mengevaluasi data deret waktu yang disimpan oleh Cloud Monitoring.
Sebelum memulai
Pastikan Anda memiliki izin yang diperlukan:
Untuk mendapatkan izin yang diperlukan agar dapat melihat dan mengelola insiden menggunakan konsol Google Cloud, minta administrator untuk memberi Anda peran IAM berikut pada project Anda:
-
Lihat insiden menggunakan Konsol Google Cloud:
-
Monitoring Cloud Console Incident Viewer (
roles/monitoring.cloudConsoleIncidentViewer
) -
Stackdriver Accounts Viewer (
roles/stackdriver.accounts.viewer
)
-
Monitoring Cloud Console Incident Viewer (
-
Mengelola insiden menggunakan konsol Google Cloud:
-
Editor Insiden Konsol Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentEditor
) -
Stackdriver Accounts Viewer (
roles/stackdriver.accounts.viewer
)
-
Editor Insiden Konsol Cloud Monitoring (
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk informasi selengkapnya tentang peran Cloud Monitoring, lihat Mengontrol akses dengan Identity and Access Management.
Menemukan insiden
Untuk melihat daftar insiden di project Google Cloud Anda, lakukan langkah berikut:
-
Di konsol Google Cloud, buka halaman notifications Alerting:
Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
- Panel Ringkasan mencantumkan jumlah insiden yang terbuka.
- Panel Insiden menampilkan insiden terbuka terbaru. Untuk mencantumkan insiden terbaru dalam tabel, termasuk insiden yang ditutup, klik Tampilkan insiden tertutup.
Untuk melihat detail insiden tertentu, pilih insiden dalam daftar.
Halaman Detail insiden akan terbuka. Untuk informasi selengkapnya tentang halaman Detail insiden, lihat bagian Menyelidiki insiden di halaman ini.
Menemukan insiden yang lebih lama
Panel Insiden di halaman Pemberitahuan menampilkan insiden terbuka terbaru. Untuk menemukan insiden yang lebih lama, lakukan salah satu hal berikut:
Untuk melihat entri di tabel Insiden, klik arrow_back_ios Lebih baru atau arrow_forward_ios Lebih lama.
Untuk membuka halaman Insiden, klik Lihat semua insiden. Dari halaman Insiden, Anda dapat melakukan semua hal berikut:
- Tampilkan insiden yang ditutup: Untuk mencantumkan semua insiden dalam tabel, klik Tampilkan insiden yang ditutup.
- Memfilter insiden: Untuk informasi tentang cara menambahkan filter, lihat Memfilter insiden.
- Mengonfirmasi atau menutup insiden, atau menunda kebijakan pemberitahuannya. Untuk mengakses opsi ini, klik more_vert Opsi lainnya di baris insiden, lalu pilih dari menu. Untuk informasi selengkapnya, lihat Mengelola insiden.
Filter insiden
Saat Anda memasukkan nilai di panel filter, hanya insiden yang cocok dengan filter yang dicantumkan dalam tabel Insiden. Jika Anda menambahkan beberapa filter, insiden hanya akan ditampilkan jika memenuhi semua filter.
Untuk menambahkan filter ke tabel insiden, lakukan tindakan berikut:
Di halaman Insiden, klik filter_list Filter table, lalu pilih properti filter. Properti filter mencakup semua hal berikut:
- Status insiden
- Nama kebijakan pemberitahuan
- Kapan insiden dibuka atau ditutup
- Jenis metrik
- Jenis resource
Pilih nilai dari menu sekunder atau masukkan nilai di panel filter.
Misalnya, jika Anda memilih Metric type dan memasukkan
usage_time
, Anda mungkin hanya melihat opsi berikut di menu sekunder:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
Menyelidiki insiden
Halaman Detail insiden berisi informasi yang dapat membantu Anda mengidentifikasi penyebab insiden.
Menjelajahi data metrik
Untuk menganalisis status metrik sebelum dan sesudah insiden terjadi, gunakan diagram Metrik Notifikasi. Diagram ini menampilkan linimasa dan deret waktu yang menyebabkan kondisi kebijakan pemberitahuan Anda terpenuhi.
Anda dapat menyesuaikan rentang linimasa untuk mencari tren dan pola dalam data metrik Anda terkait insiden:
Untuk beralih antara hanya menampilkan deret waktu yang menyebabkan kondisi terpenuhi dan menampilkan semua deret waktu yang dievaluasi oleh kondisi, klik toggle_off Tampilkan semua deret waktu.
Untuk mengubah rentang waktu yang ditampilkan oleh diagram, Anda dapat menggunakan pemilih rentang waktu di toolbar, atau menandai rentang waktu pada diagram dengan kursor.
Anda juga dapat menganalisis data metrik secara lebih mendetail dengan melihatnya di Metrics Explorer. Untuk melakukannya, buka diagram Metrik Notifikasi, lalu klik query_stats Jelajahi Data. Secara default, Metrics Explorer menggabungkan dan memfilter data metrik sehingga diagram metrik selaras dengan deret waktu yang ditampilkan di linimasa Metrik Notifikasi.
Menjelajahi entri log
Panel Logs di halaman Incident details menampilkan entri log yang cocok dengan jenis resource dan label resource yang dimonitor untuk metrik Anda. Anda dapat menganalisis entri log ini untuk menemukan informasi tambahan yang dapat membantu Anda memecahkan masalah insiden.
- Untuk melihat entri log di Logs Explorer, klik View in Logs Explorer, lalu pilih project cakupan. Logs Explorer menyediakan alat tambahan untuk menganalisis data entri log, seperti linimasa waktu pembuatan entri log terkait.
- Untuk melihat dan mengedit kueri yang digunakan untuk memfilter entri log di Metrics Explorer, klik query_stats Explore Data.
Melihat informasi tambahan
Bagian Label menampilkan label dan nilai untuk resource yang dimonitor dan metrik deret waktu yang menyebabkan insiden, serta label pengguna yang ditentukan dalam kebijakan pemberitahuan. Informasi ini dapat membantu Anda mengidentifikasi resource tertentu yang dipantau dan menyebabkan insiden. Untuk informasi selengkapnya, lihat Menambahkan anotasi pada insiden dengan label.
Bagian Dokumentasi menampilkan template dokumentasi untuk notifikasi yang Anda berikan saat membuat kebijakan pemberitahuan. Informasi ini mungkin mencakup deskripsi tentang apa yang dipantau oleh kebijakan pemberitahuan dan menyertakan tips untuk mitigasi. Untuk informasi selengkapnya, lihat Memberikan anotasi pada notifikasi menggunakan dokumentasi yang ditentukan pengguna.
Jika Anda tidak mengonfigurasi dokumentasi untuk kebijakan pemberitahuan, panel Dokumentasi akan menampilkan "Tidak ada dokumentasi yang dikonfigurasi".
Menjelajahi insiden terkait
Untuk membantu menemukan masalah mendasar di seluruh aplikasi, Anda dapat menjelajahi insiden yang terkait dengan kondisi kebijakan pemberitahuan lainnya.
Bagian Insiden Terkait menampilkan daftar insiden yang cocok dengan salah satu dari hal berikut:- Insiden dibuat saat kondisi kebijakan pemberitahuan yang sama terpenuhi.
- Insiden memiliki label yang sama dengan insiden yang ditampilkan di halaman detail insiden.
Mengelola Insiden
Insiden berada dalam salah satu status berikut:
error Terbuka: Kumpulan kondisi kebijakan pemberitahuan terpenuhi atau tidak ada data untuk menunjukkan bahwa kondisi tidak lagi terpenuhi. Jika kebijakan pemberitahuan berisi beberapa kondisi, insiden akan dibuka bergantung pada cara penggabungan kondisi tersebut. Untuk mengetahui informasi selengkapnya, lihat Kebijakan dengan beberapa kondisi.
warning Terkonfirmasi: Insiden terbuka dan telah ditandai secara manual sebagai terkonfirmasi. Biasanya, status ini menunjukkan bahwa insiden sedang diselidiki.
check_circle Ditutup: Sistem mengamati bahwa kondisi berhenti terpenuhi, Anda menutup insiden, atau 7 hari berlalu tanpa pengamatan bahwa kondisi terus terpenuhi.
Misalnya, jika Anda membuat kebijakan pemberitahuan yang memberi tahu Anda saat jumlah error lebih dari 0, pastikan kebijakan tersebut menghasilkan jumlah error 0 jika tidak ada error. Jika kebijakan pemberitahuan menampilkan null atau kosong dalam status bebas error, tidak ada sinyal untuk menunjukkan kapan error berhenti. Dalam beberapa situasi, Monitoring Query Language (MQL) mendukung kemampuan Anda untuk menentukan nilai default yang digunakan saat tidak ada nilai yang diukur yang tersedia. Untuk contoh, lihat Rasio penggunaan.
Mengonfirmasi insiden
Sebaiknya tandai insiden sebagai dikonfirmasi saat Anda mulai menyelidiki penyebab insiden.
Untuk menandai insiden sebagai ditanggapi, lakukan tindakan berikut:
- Di panel Incidents pada halaman Alerting, klik See all incidents.
Di halaman Insiden, temukan insiden yang ingin Anda konfirmasi, lalu lakukan salah satu hal berikut:
- Klik more_vert Opsi lainnya, lalu pilih Konfirmasi.
- Buka halaman detail untuk insiden, lalu klik Konfirmasi insiden.
Jika kebijakan pemberitahuan Anda dikonfigurasi untuk mengirim notifikasi berulang, mengonfirmasi insiden tidak akan menghentikan notifikasi. Untuk menghentikannya, lakukan salah satu hal berikut:
- Buat penundaan untuk kebijakan pemberitahuan.
- Nonaktifkan kebijakan pemberitahuan.
Menunda kebijakan pemberitahuan
Untuk mencegah Pemantauan membuat insiden dan mengirim notifikasi selama jangka waktu tertentu, tunda kebijakan pemberitahuan terkait. Saat Anda menunda kebijakan pemberitahuan, Monitoring juga akan menutup semua insiden yang terkait dengan kebijakan pemberitahuan.
Untuk menunda notifikasi insiden yang Anda lihat, lakukan tindakan berikut:
Di halaman Detail insiden, klik Kebijakan Tunda.
Pilih durasi penundaan. Setelah Anda memilih durasi penundaan, penundaan akan segera dimulai.
Anda juga dapat menunda kebijakan pemberitahuan dari halaman Incidents dengan menemukan insiden yang ingin Anda tunda, mengklik more_vert More options, lalu memilih Snooze. Anda dapat menunda kebijakan pemberitahuan selama pemadaman untuk mencegah notifikasi lebih lanjut selama proses pemecahan masalah.
Menutup insiden
Anda dapat mengizinkan Pemantauan menutup insiden untuk Anda, atau Anda dapat menutup insiden setelah pengamatan berhenti diterima. Jika Anda menutup insiden, lalu data tiba yang menunjukkan bahwa kondisi terpenuhi, insiden baru akan dibuat. Saat Anda menutup insiden, tindakan tersebut tidak akan menutup insiden lain yang terbuka untuk kondisi yang sama. Jika Anda menunda kebijakan pemberitahuan, insiden yang terbuka akan ditutup saat penundaan dimulai.
Pemantauan akan otomatis menutup insiden jika salah satu hal berikut terjadi:
Kondisi nilai minimum metrik:
- Pengamatan akan muncul yang menunjukkan bahwa nilai minimum tidak dilanggar.
Tidak ada pengamatan yang diterima, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti diterima, dan status resource pokok tidak diketahui atau tidak dinonaktifkan.
Tidak ada pengamatan yang diterima selama durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan berhenti diterima. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari. Durasi penutupan otomatis minimum adalah 30 menit.
Kondisi ketiadaan metrik:
- Pengamatan terjadi.
- Tidak ada pengamatan yang diterima selama 24 jam setelah masa berlaku penutupan otomatis kebijakan pemberitahuan berakhir. Untuk mengonfigurasi durasi penutupan otomatis, Anda dapat menggunakan konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari.
Kondisi perkiraan:
- Perkiraan dibuat dan memprediksi bahwa deret waktu tidak akan melanggar nilai minimum dalam periode perkiraan.
Tidak ada pengamatan yang tiba selama 10 menit, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource yang mendasarinya tidak diketahui atau tidak dinonaktifkan.
Tidak ada pengamatan yang diterima selama durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan berhenti diterima.
Misalnya, kebijakan pemberitahuan menghasilkan insiden karena latensi respons HTTP lebih dari 2 detik selama 10 menit berturut-turut. Jika pengukuran latensi respons HTTP berikutnya kurang dari atau sama dengan dua detik, insiden akan ditutup. Demikian pula, jika tidak ada data sama sekali yang diterima selama tujuh hari, insiden akan ditutup.
Untuk menutup insiden, lakukan tindakan berikut:
- Di panel Incidents pada halaman Alerting, klik See all incidents.
Di halaman Insiden, temukan insiden yang ingin Anda tutup, lalu lakukan salah satu tindakan berikut:
- Klik more_vert Lihat lainnya, lalu pilih Tutup insiden.
- Buka halaman Incident details untuk insiden tersebut, lalu klik Close incident.
Unable to close incident with active conditions
,
inciden tidak dapat ditutup karena data telah diterima dalam
periode pemberitahuan terbaru.
Jika Anda melihat pesan
Unable to close incident. Please try again in a few minutes.
,
insiden tidak dapat ditutup karena error internal.
Batas dan retensi data
Untuk mengetahui informasi tentang batas dan periode retensi insiden, lihat Batas untuk pemberitahuan.
Langkah selanjutnya
- Untuk membuat dan mengelola kebijakan pemberitahuan dengan Cloud Monitoring API atau dari command line, lihat Mengelola kebijakan pemberitahuan menurut API.
- Untuk mengetahui perlakuan konseptual yang mendetail tentang kebijakan pemberitahuan, lihat Perilaku kebijakan pemberitahuan berbasis metrik.