Dokumen ini menjelaskan cara untuk melihat, menyelidiki, dan mengelola insiden untuk kebijakan pemberitahuan berbasis metrik.
Sebelum memulai
Pastikan Anda memiliki izin yang diperlukan:
-
Untuk mendapatkan izin yang Anda perlukan untuk melihat insiden dengan menggunakan Konsol Google Cloud, minta administrator untuk memberi Anda peran IAM berikut pada project:
-
Monitoring Cloud Console Incident Viewer (
roles/monitoring.cloudConsoleIncidentViewer
) -
Viewer Akun Stackdriver (
roles/stackdriver.accounts.viewer
)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
-
Monitoring Cloud Console Incident Viewer (
-
Untuk mendapatkan izin yang diperlukan untuk mengelola insiden dengan menggunakan Konsol Google Cloud, minta administrator untuk memberi Anda peran IAM berikut pada project:
-
Monitoring Editor Insiden Cloud Console (
roles/monitoring.cloudConsoleIncidentEditor
) -
Viewer Akun Stackdriver (
roles/stackdriver.accounts.viewer
)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
-
Monitoring Editor Insiden Cloud Console (
Untuk mengetahui informasi lebih lanjut tentang peran Cloud Monitoring, baca artikel Mengontrol akses dengan Identity and Access Management.
Menemukan insiden
Untuk melihat daftar insiden, lakukan hal berikut:
-
Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih notifications Alerting:
- Panel Summary mencantumkan jumlah insiden yang terbuka.
- Panel Insiden menampilkan insiden terbuka terbaru. Untuk melihat daftar insiden terbaru dalam tabel, termasuk insiden yang ditutup, klik Tampilkan insiden yang ditutup.
Opsional: Untuk melihat detail insiden tertentu, pilih insiden dalam daftar. Halaman Detail insiden akan terbuka. Untuk mengetahui informasi tentang halaman ini, lihat bagian Menyelidiki insiden di halaman ini.
Menemukan insiden yang lebih lama
Panel Insiden di halaman Alerting menampilkan insiden terbuka terbaru. Untuk menemukan insiden yang lebih lama, lakukan salah satu hal berikut:
Untuk melihat entri dalam tabel Insiden, klik arrow_back_ios Newer atau arrow_forward_ios Lebih lama.
Untuk membuka halaman Insiden, klik Lihat semua insiden. Dari halaman Insiden, Anda dapat melakukan semua hal berikut:
- Menampilkan insiden ditutup: Untuk mencantumkan semua insiden dalam tabel, klik Tampilkan insiden tertutup.
- Filter insiden: Untuk mengetahui informasi tentang cara menambahkan filter, lihat Memfilter insiden.
- Konfirmasi atau tutup insiden, atau tunda kebijakan pemberitahuannya. Untuk mengakses opsi ini, klik more_vert Opsi lainnya di baris insiden, dan buat pilihan dari menu. Untuk informasi selengkapnya, lihat Mengelola insiden.
Filter insiden
Saat Anda memasukkan nilai di panel filter, hanya insiden yang cocok dengan filter yang akan dicantumkan di tabel Insiden. Jika Anda menambahkan beberapa filter, insiden akan ditampilkan hanya jika memenuhi semua filter.
Untuk menambahkan filter tabel insiden, lakukan tindakan berikut:
Di halaman Insiden, klik filter_list Tabel filter, lalu pilih properti filter. Properti filter mencakup semua hal berikut:
- Keadaan insiden
- Nama kebijakan pemberitahuan
- Kapan insiden dibuka atau ditutup
- Jenis metrik
- Jenis aset
Pilih nilai dari menu sekunder atau masukkan nilai di panel filter.
Misalnya, jika memilih Metric type dan memasukkan
usage_time
, Anda mungkin hanya melihat opsi berikut di menu sekunder:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
Menyelidiki insiden
Setelah menemukan insiden yang ingin diselidiki, buka halaman Detail insiden untuk insiden tersebut. Untuk melihat detailnya, pilih ringkasan insiden pada tabel insiden di halaman Pemberitahuan atau halaman Insiden.
Atau, jika Anda menerima notifikasi yang menyertakan link ke insiden, Anda dapat menggunakan link tersebut untuk melihat detail insiden.
Halaman Detail insiden memberikan informasi berikut:
Informasi status, termasuk:
- Nama: Nama kebijakan pemberitahuan yang menyebabkan insiden ini.
- Status: Status insiden: terbuka, dikonfirmasi, atau ditutup.
- Tingkat keparahan: Tingkat keparahan insiden:
- Tidak Ada Tingkat Keparahan
- Penting
- Error
- Peringatan
- Durasi: Lamanya waktu saat insiden tersebut terbuka.
Informasi tentang kebijakan pemberitahuan yang menyebabkan insiden:
Panel Condition: mengidentifikasi kondisi dalam kebijakan pemberitahuan yang menyebabkan insiden.
Panel Message: memberikan penjelasan singkat tentang penyebabnya berdasarkan konfigurasi kondisi dalam kebijakan pemberitahuan. Panel ini selalu diisi.
Panel Dokumentasi: menampilkan template dokumentasi untuk notifikasi yang Anda berikan saat membuat kebijakan pemberitahuan. Informasi ini mungkin mencakup deskripsi tentang hal yang dipantau oleh kebijakan pemberitahuan dan menyertakan tips untuk mitigasi.
Jika Anda melewati kolom ini saat membuat kebijakan pemberitahuan, panel ini akan melaporkan "No documentation is configuration".
- Label: melaporkan hal berikut:
Label dan nilai untuk resource dan metrik yang dimonitor deret waktu yang memicu kebijakan pemberitahuan. Informasi ini dapat membantu Anda mengidentifikasi resource tertentu yang dimonitor yang menyebabkan insiden tersebut.
Saat Anda menggunakan variabel dalam dokumentasi untuk label metrik, Monitoring akan menghapus label dari notifikasi jika nilai label tidak diawali dengan digit, huruf, garis miring (
/
), atau tanda sama dengan (=
).- Label dan nilai yang ditentukan pengguna, yang Anda tetapkan di kebijakan pemberitahuan. Anda dapat menggunakan label ini untuk mengatur dan mengidentifikasi kebijakan pemberitahuan. Label yang terkait dengan kebijakan dicantumkan di bagian Label Kebijakan, sedangkan label yang ditetapkan sebagai bagian dari kondisi dicantumkan di bagian Label metrik. Label metadata hanya ditampilkan jika terdapat filter atau pengelompokan yang bergantung pada label tersebut. Untuk contoh penggunaannya, lihat bagian Menambahkan tingkat keparahan ke kebijakan pemberitahuan.
Halaman Detail insiden juga menyediakan alat untuk menyelidiki insiden:
-
Linimasa insiden: Menampilkan dua representasi visual insiden:
- Pada linimasa, batang merah merepresentasikan waktu insiden; panjang dan posisi batang mencerminkan durasi insiden.
- Diagram menampilkan data deret waktu dan nilai minimum yang digunakan oleh kebijakan pemberitahuan yang menyebabkan insiden. Insiden ini dibuka saat deret waktu tertentu memenuhi kondisi kebijakan pemberitahuan.
Sumbu waktu menunjukkan durasi insiden dengan dua titik berlabel. Posisi titik-titik tersebut pada sumbu waktu menentukan rentang data yang ditampilkan pada diagram yang menyertai linimasa insiden. Secara default, satu titik diposisikan pada waktu pembukaan insiden dan satu titik saat penutupan insiden, atau pada waktu saat ini jika insiden masih terbuka.
Anda dapat mengubah rentang waktu pada linimasa insiden dan diagram:
-
Untuk mengubah rentang waktu yang ditampilkan pada diagram, tarik salah satu titik di sepanjang sumbu waktu. Dengan menggunakan teknik ini, Anda dapat berfokus pada interval tertentu, misalnya, di sekitar awal atau akhir insiden.
Mengubah diagram dengan menarik titik-titik pada sumbu menetapkan nilai kustom di menu Time Span dan menonaktifkan menu. Untuk mengaktifkan menu Time Span, klik Reset.
- Untuk mengubah rentang waktu yang ditampilkan di linimasa, pilih rentang dari menu Time Span.
- Link ke alat pemecahan masalah lainnya. Konfigurasi project Anda, kebijakan pemberitahuan, dan usia insiden menentukan link mana yang tersedia.
- Untuk melihat halaman detail kebijakan pemberitahuan, klik View policy.
- Untuk mengedit definisi kebijakan pemberitahuan, klik Edit policy.
- Untuk membuka dasbor informasi performa resource, klik View resource details.
- Untuk melihat entri log terkait di Logs Explorer, klik View logs. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Logs Explorer.
- Untuk menyelidiki data dalam diagram, klik Lihat di Metrics Explorer.
- Anotasi: Memberikan log tentang temuan, hasil, saran,
atau komentar lain dari investigasi Anda atas insiden tersebut.
- Untuk menambahkan anotasi, masukkan teks dalam kolom, lalu klik Add comment.
- Untuk menghapus komentar, klik Batal.
Mengelola insiden
Insiden berada dalam salah satu status berikut:
error Terbuka: Serangkaian kondisi kebijakan pemberitahuan terpenuhi atau tidak ada data yang menunjukkan bahwa kondisi tersebut tidak lagi terpenuhi. Jika kebijakan pemberitahuan berisi beberapa kondisi, insiden akan dibuka bergantung pada cara kondisi tersebut digabungkan. Baca Menggabungkan kondisi untuk mengetahui informasi selengkapnya.
warning Dikonfirmasi: Insiden ini terbuka dan telah ditandai secara manual sebagai dikonfirmasi. Biasanya, status ini menunjukkan bahwa insiden sedang diselidiki.
check_circle Ditutup: Sistem mengamati bahwa kondisi berhenti terpenuhi, Anda menutup insiden, atau 7 hari berlalu tanpa pengamatan bahwa kondisi terus terpenuhi.
Misalnya, jika Anda membuat kebijakan pemberitahuan yang memberi tahu Anda saat jumlah error lebih dari 0, pastikan kebijakan ini menghasilkan error sebanyak 0 jika tidak ada error. Jika kebijakan pemberitahuan menampilkan null atau kosong dalam status bebas error, tidak ada sinyal yang menunjukkan kapan error telah berhenti. Dalam beberapa situasi, Bahasa Kueri Monitoring (MQL) memungkinkan Anda menentukan nilai default yang digunakan saat tidak ada nilai terukur yang tersedia. Sebagai contoh, lihat Menggunakan rasio.
Mengakui insiden
Sebaiknya Anda menandai insiden sebagai dikonfirmasi saat Anda mulai menyelidiki penyebab insiden tersebut.
Untuk menandai insiden sebagai dikonfirmasi, lakukan hal berikut:
- Di panel Incidents di halaman Alerting, klik See allIncident.
Di halaman Insiden, temukan insiden yang ingin Anda konfirmasi, lalu lakukan salah satu tindakan berikut:
- Klik more_vert Opsi lainnya, lalu pilih Konfirmasi.
- Buka halaman detail insiden, lalu klik Acknowledge insiden.
Jika kebijakan pemberitahuan Anda dikonfigurasi untuk mengirim notifikasi berulang, mengonfirmasi suatu insiden tidak akan menghentikan notifikasi tersebut. Untuk menghentikannya, lakukan salah satu langkah berikut:
- Buat penundaan untuk kebijakan pemberitahuan.
- Nonaktifkan kebijakan pemberitahuan.
Menunda kebijakan pemberitahuan
Untuk mencegah Monitoring membuat insiden dan mengirim notifikasi selama jangka waktu tertentu, tunda kebijakan pemberitahuan terkait. Saat Anda menunda kebijakan pemberitahuan, Monitoring juga akan menutup semua insiden yang terkait dengan kebijakan pemberitahuan.
Untuk membuat penundaan bagi insiden yang sedang Anda lihat, lakukan hal berikut:
Di halaman Detail insiden, klik Tunda.
Pilih durasi penundaan. Setelah Anda memilih durasi penundaan, penundaan akan segera dimulai.
Saat melihat halaman detail insiden, Anda dapat membuat penundaan untuk kebijakan pemberitahuan terkait dengan mengklik Tunda, lalu memilih durasi. Penundaan akan segera dimulai. Anda juga dapat menunda kebijakan pemberitahuan dari halaman Insiden dengan menemukan insiden yang ingin Anda tunda, mengklik more_vert More options, lalu memilih Tunda. Anda dapat menunda kebijakan pemberitahuan selama gangguan layanan untuk mencegah notifikasi lebih lanjut selama proses pemecahan masalah.
Tutup insiden
Anda dapat mengizinkan Monitoring menutup insiden, atau menutup insiden setelah observasi berhenti tiba. Jika Anda menutup insiden lalu data masuk yang menunjukkan kondisi terpenuhi, insiden baru akan dibuat. Saat Anda menutup insiden, tindakan tersebut tidak menutup insiden lain yang terbuka untuk kondisi yang sama. Jika Anda menunda kebijakan pemberitahuan, insiden yang terbuka akan ditutup saat penundaan dimulai.
Monitoring akan otomatis menutup insiden jika salah satu dari hal berikut terjadi:
Kondisi batas metrik:
- Observasi tiba yang menunjukkan bahwa ambang batas tidak dilanggar.
Tidak ada pengamatan yang dilakukan, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource dasar tidak diketahui atau tidak dinonaktifkan.
Tidak ada observasi yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat observasi berhenti tiba. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi tutup otomatis adalah tujuh hari. Durasi tutup otomatis minimum adalah 30 menit.
Kondisi ketiadaan metrik:
- Suatu observasi terjadi.
- Tidak ada pengamatan yang dilakukan selama 24 jam setelah durasi tutup otomatis kebijakan pemberitahuan berakhir. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi tutup otomatis adalah tujuh hari.
Kondisi perkiraan:
- Perkiraan dibuat dan memprediksi bahwa deret waktu tidak akan melanggar nilai minimum dalam periode perkiraan.
Tidak ada pengamatan yang dilakukan selama 10 menit, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource dasar tidak diketahui atau tidak dinonaktifkan.
Tidak ada observasi yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat observasi berhenti tiba.
Misalnya, kebijakan pemberitahuan menyebabkan insiden karena latensi respons HTTP lebih besar dari 2 detik selama 10 menit berturut-turut. Jika pengukuran latensi respons HTTP berikutnya kurang dari atau sama dengan dua detik, insiden akan ditutup. Demikian pula, jika tidak ada data sama sekali yang diterima selama tujuh hari, insiden akan ditutup.
Untuk menutup insiden, lakukan langkah berikut:
- Di panel Incidents di halaman Alerting, klik See allIncident.
Di halaman Insiden, temukan insiden yang ingin Anda tutup, lalu lakukan salah satu hal berikut:
- Klik more_vert Lihat lainnya, lalu pilih Tutup insiden.
- Buka halaman detail insiden, lalu klik Tutup insiden.
Jika Anda melihat pesan Unable to close incident with active conditions
, insiden tersebut tidak dapat ditutup karena data telah diterima dalam periode pemberitahuan terbaru.
Jika Anda melihat pesan Unable to close incident. Please try again in a few minutes.
, berarti insiden tidak dapat ditutup karena error internal.
Batas dan retensi data
Untuk mengetahui informasi tentang batas dan periode retensi insiden, lihat Batas untuk pemberitahuan dan cek uptime.
Langkah selanjutnya
- Untuk membuat dan mengelola kebijakan pemberitahuan dengan Cloud Monitoring API atau dari command line, lihat Mengelola kebijakan pemberitahuan dengan API.