Insiden untuk kebijakan pemberitahuan berbasis metrik

Insiden adalah data saat kondisi atau kondisi kebijakan pemberitahuan terpenuhi. Biasanya, saat kondisi terpenuhi, Cloud Monitoring akan membuka insiden dan mengirimkan notifikasi. Namun, insiden tidak dibuat saat kebijakan ditunda atau dinonaktifkan, saat ada terlalu banyak insiden terbuka untuk kebijakan tersebut, atau saat resource yang mendasarinya diketahui dinonaktifkan. Selain itu, jika kebijakan pemberitahuan berisi beberapa kondisi, kebijakan pemberitahuan akan menentukan apakah memenuhi satu kondisi sudah cukup untuk menyebabkan insiden dibuat.

Dokumen ini menjelaskan cara melihat, menyelidiki, dan mengelola insiden untuk kebijakan pemberitahuan berbasis metrik.

Sebelum memulai

Pastikan Anda memiliki izin yang diperlukan:

  • Untuk mendapatkan izin yang Anda perlukan untuk mengelola insiden menggunakan Konsol Google Cloud, minta administrator untuk memberi Anda peran IAM berikut pada project Anda:

    Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

    Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran Cloud Monitoring, lihat Mengontrol akses dengan Identity and Access Management.

Menemukan insiden

Untuk melihat daftar insiden, lakukan tindakan berikut:

  1. Di panel navigasi konsol Google Cloud, pilih Monitoring, lalu pilih  Alerting:

    Buka Alerting

    • Panel Summary mencantumkan jumlah insiden terbuka.
    • Panel Insiden menampilkan insiden terbuka terbaru. Untuk mencantumkan insiden terbaru dalam tabel, termasuk insiden yang ditutup, klik Tampilkan insiden tertutup.
  2. Opsional: Untuk melihat detail insiden tertentu, pilih insiden dalam daftar. Halaman Detail insiden akan terbuka. Untuk mengetahui informasi tentang halaman ini, lihat bagian Menyelidiki insiden di halaman ini.

Menemukan insiden lama

Panel Insiden di halaman Alerting menampilkan insiden terbuka terbaru. Untuk menemukan insiden yang lebih lama, lakukan salah satu langkah berikut:

  • Untuk menelusuri entri di tabel Insiden, klik  Lebih baru atau  Lebih lama.

  • Untuk membuka halaman Insiden, klik Lihat semua insiden. Dari halaman Insiden, Anda dapat melakukan semua hal berikut:

    • Menampilkan insiden tertutup: Untuk mencantumkan semua insiden dalam tabel, klik Tampilkan insiden tertutup.
    • Memfilter insiden: Untuk informasi tentang cara menambahkan filter, lihat Memfilter insiden.
    • Konfirmasi atau tutup insiden, atau tunda kebijakan pemberitahuannya. Untuk mengakses opsi ini, klik  Opsi lainnya di baris insiden, dan buat pilihan dari menu. Untuk informasi lebih lanjut, lihat Mengelola insiden.

Filter insiden

Saat Anda memasukkan nilai di panel filter, hanya insiden yang cocok dengan filter yang akan dicantumkan di tabel Insiden. Jika Anda menambahkan beberapa filter, insiden hanya ditampilkan jika memenuhi semua filter.

Untuk menambahkan filter tabel insiden, lakukan tindakan berikut:

  1. Di halaman Insiden, klik  Tabel filter, lalu pilih properti filter. Properti filter mencakup semua hal berikut:

    • Status insiden
    • Nama kebijakan pemberitahuan
    • Kapan insiden dibuka atau ditutup
    • Jenis metrik
    • Jenis resource
  2. Pilih nilai dari menu sekunder atau masukkan nilai di panel filter.

    Misalnya, jika memilih Metric type dan memasukkan usage_time, Anda mungkin hanya melihat opsi berikut di menu sekunder:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Menyelidiki insiden

Setelah menemukan insiden yang ingin diselidiki, buka halaman Detail insiden untuk insiden tersebut. Untuk melihat detailnya, pilih ringkasan insiden dalam tabel insiden di halaman Alerting atau halaman Incidents.

Atau, jika Anda menerima notifikasi yang menyertakan link ke insiden, Anda dapat menggunakan link tersebut untuk melihat detail insiden.

Halaman Detail insiden memberikan informasi berikut:

  • Informasi status, termasuk:

    • Nama: Nama kebijakan pemberitahuan yang menyebabkan insiden ini.
    • Status: Status insiden: terbuka, dikonfirmasi, atau ditutup.
    • Keparahan: Tingkat keparahan insiden:
      • Tidak Ada Tingkat Keparahan
      • Penting
      • Error
      • Peringatan
    • Durasi: Lamanya waktu saat insiden terbuka.
  • Informasi tentang kebijakan pemberitahuan yang menyebabkan insiden:

    • Panel Condition: mengidentifikasi kondisi dalam kebijakan pemberitahuan yang menyebabkan insiden.

    • Panel Message: memberikan penjelasan singkat tentang penyebab berdasarkan konfigurasi kondisi dalam kebijakan pemberitahuan. Panel ini selalu terisi.

    • Panel Documentation: menampilkan template dokumentasi untuk notifikasi yang Anda berikan saat membuat kebijakan pemberitahuan. Informasi ini dapat mencakup deskripsi tentang hal yang dipantau oleh kebijakan pemberitahuan dan menyertakan tips untuk mitigasi.

      Jika Anda melewati kolom ini saat membuat kebijakan pemberitahuan, panel ini akan melaporkan "Tidak ada dokumentasi yang dikonfigurasi".

  • Label: melaporkan hal berikut:
    • Label dan nilai untuk resource dan metrik yang dipantau dalam deret waktu yang menyebabkan insiden. Informasi ini dapat membantu Anda mengidentifikasi resource yang dimonitor dan menyebabkan insiden.

      Saat Anda menggunakan variabel dalam dokumentasi untuk label metrik, Monitoring akan menghilangkan label dari notifikasi jika nilai label tidak diawali dengan digit, huruf, garis miring (/), atau tanda sama dengan (=).

    • Setiap label dan nilai yang ditentukan pengguna yang Anda tetapkan pada kebijakan pemberitahuan. Anda dapat menggunakan label ini untuk mengatur dan mengidentifikasi kebijakan pemberitahuan. Label yang terkait dengan kebijakan dicantumkan di bagian Label Kebijakan, sedangkan label yang ditetapkan sebagai bagian dari kondisi dicantumkan di bagian Label metrik. Label metadata hanya ditampilkan jika ada filter atau pengelompokan yang bergantung pada label. Untuk mengetahui informasi selengkapnya, lihat Menganotasi pemberitahuan dengan label.

Halaman Detail insiden juga menyediakan alat untuk menyelidiki insiden:

  • Linimasa insiden: Menampilkan dua representasi visual dari insiden:

    • Pada linimasa, batang merah merepresentasikan waktu insiden; panjang dan posisi batang mencerminkan durasi insiden.
    • Diagram menunjukkan data deret waktu dan nilai minimum yang digunakan oleh kebijakan pemberitahuan yang menyebabkan insiden. Insiden ini dibuka saat beberapa deret waktu memenuhi kondisi kebijakan pemberitahuan.

    Sumbu waktu menunjukkan durasi insiden dengan dua titik berlabel. Posisi titik-titik ini pada sumbu waktu menentukan rentang data yang ditampilkan pada diagram yang menyertai linimasa insiden. Secara default, satu titik diposisikan pada pembukaan insiden dan satu titik di penutupan insiden, atau pada waktu saat ini jika insiden masih terbuka.

    Anda dapat mengubah rentang waktu di linimasa insiden dan diagram:

    • Untuk mengubah rentang waktu yang ditampilkan pada diagram, tarik salah satu titik di sepanjang sumbu waktu. Dengan menggunakan teknik ini, Anda dapat berfokus pada interval tertentu, misalnya di sekitar awal atau akhir insiden.

      Mengubah diagram dengan menarik titik-titik pada sumbu akan menetapkan nilai kustom di menu Time Span dan menonaktifkan menu. Untuk mengaktifkan menu Time Span, klik Reset.

    • Untuk mengubah rentang waktu yang ditampilkan di linimasa, pilih rentang dari menu Time Span.
  • Link ke alat pemecahan masalah lainnya. Konfigurasi project dan kebijakan pemberitahuan serta usia insiden akan menentukan link mana yang tersedia.
    • Untuk melihat halaman detail kebijakan pemberitahuan, klik View policy.
    • Untuk mengedit definisi kebijakan pemberitahuan, klik Edit policy.
    • Untuk membuka dasbor informasi performa resource, klik View resource details.
    • Untuk melihat entri log terkait di Logs Explorer, klik View logs. Untuk mengetahui informasi selengkapnya, baca Melihat log dengan menggunakan Logs Explorer.
    • Untuk menyelidiki data dalam diagram, klik View in Metrics Explorer.
  • Anotasi: Memberikan log temuan, hasil, saran, atau komentar lain dari penyelidikan insiden Anda.
    • Untuk menambahkan anotasi, masukkan teks dalam kolom, lalu klik Add comment.
    • Untuk menghapus komentar, klik Batal.

Mengelola Insiden

Insiden berada dalam salah satu status berikut:

  • Terbuka: Serangkaian kondisi dalam kebijakan pemberitahuan sedang terpenuhi atau tidak ada data yang menunjukkan bahwa kondisi tersebut tidak lagi terpenuhi. Jika kebijakan pemberitahuan berisi beberapa kondisi, insiden akan dibuka, bergantung pada cara kondisi tersebut digabungkan. Untuk informasi selengkapnya, lihat Kebijakan dengan beberapa ketentuan.

  • Dikonfirmasi: Insiden ini terbuka dan telah ditandai secara manual sebagai dikonfirmasi. Biasanya, status ini menunjukkan bahwa insiden sedang diselidiki.

  • Ditutup: Sistem mengamati bahwa kondisi berhenti terpenuhi, Anda menutup insiden, atau 7 hari berlalu tanpa pengamatan bahwa kondisi terus terpenuhi.

Saat mengonfigurasi kebijakan pemberitahuan, pastikan status stabil memberikan sinyal saat semuanya baik-baik saja. Hal ini diperlukan untuk memastikan bahwa status bebas error dapat diidentifikasi dan, jika insiden terbuka, untuk insiden tersebut ditutup. Jika tidak ada sinyal yang menunjukkan bahwa kondisi error telah berhenti, setelah dibuka, insiden akan tetap terbuka selama 7 hari setelah kebijakan pemberitahuan diaktifkan.

Misalnya, jika Anda membuat kebijakan pemberitahuan yang memberi tahu Anda ketika jumlah error lebih dari 0, pastikan kebijakan tersebut menghasilkan jumlah error 0 saat tidak ada error. Jika kebijakan pemberitahuan menampilkan null atau kosong dalam status bebas error, tidak ada sinyal untuk menunjukkan kapan error telah berhenti. Dalam beberapa situasi, Bahasa Kueri Monitoring (MQL) mendukung kemampuan Anda untuk menentukan nilai default yang digunakan saat tidak ada nilai terukur yang tersedia. Sebagai contoh, lihat Rasio penggunaan.

Mengakui insiden

Sebaiknya Anda menandai insiden sebagai dikonfirmasi saat Anda mulai menyelidiki penyebab insiden tersebut.

Untuk menandai insiden sebagai dikonfirmasi, lakukan langkah berikut:

  • Di panel Incidents di halaman Alerting, klik See all pelaku.
  • Di halaman Insiden, temukan insiden yang ingin Anda konfirmasi, lalu lakukan salah satu hal berikut:

    • Klik  Opsi lainnya, lalu pilih Konfirmasi.
    • Buka halaman detail insiden, lalu klik Konfirmasi insiden.

Jika kebijakan pemberitahuan Anda dikonfigurasi untuk mengirim notifikasi berulang, penerimaan insiden tidak akan menghentikan notifikasi. Untuk menghentikannya, lakukan salah satu langkah berikut:

  • Buat penundaan untuk kebijakan pemberitahuan.
  • Nonaktifkan kebijakan pemberitahuan.

Menunda kebijakan pemberitahuan

Untuk mencegah Monitoring membuat insiden dan mengirim notifikasi selama jangka waktu tertentu, tunda kebijakan pemberitahuan terkait. Saat Anda menunda kebijakan pemberitahuan, Monitoring juga akan menutup semua insiden yang terkait dengan kebijakan pemberitahuan.

Guna membuat penundaan untuk insiden yang Anda lihat, lakukan hal berikut:

  1. Di halaman Detail insiden, klik Tunda.

  2. Pilih durasi penundaan. Setelah Anda memilih durasi penundaan, penundaan akan segera dimulai.

Saat melihat halaman detail insiden, Anda dapat membuat penundaan untuk kebijakan pemberitahuan terkait dengan mengklik Tunda, lalu memilih durasi. Penundaan akan segera dimulai. Anda juga dapat menunda kebijakan pemberitahuan dari halaman Insiden dengan menemukan insiden yang ingin Anda tunda, mengklik  Opsi lainnya, lalu memilih Tunda. Anda dapat menunda kebijakan pemberitahuan selama pemadaman layanan untuk mencegah notifikasi lebih lanjut selama proses pemecahan masalah.

Tutup insiden

Anda dapat mengizinkan Monitoring menutup insiden untuk Anda, atau menutup insiden setelah pengamatan berhenti terjadi. Jika Anda menutup insiden, lalu data tiba yang menunjukkan kondisi terpenuhi, insiden baru akan dibuat. Saat Anda menutup insiden, tindakan tersebut tidak menutup insiden lain yang terbuka untuk kondisi yang sama. Jika Anda menunda kebijakan pemberitahuan, insiden yang terbuka akan ditutup saat penundaan dimulai.

Pemantauan akan otomatis menutup insiden jika salah satu dari hal berikut terjadi:

  • Kondisi batas metrik:

    • Pengamatan yang diberikan menunjukkan bahwa ambang batas tidak dilanggar.
    • Tidak ada pengamatan yang diterima, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource yang mendasarinya tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada pengamatan yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tersebut tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan tidak lagi diterima. Untuk mengonfigurasi durasi penutupan otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari. Durasi tutup otomatis minimum adalah 30 menit.

  • Kondisi absensi metrik:

    • Observasi terjadi.
    • Tidak ada pengamatan yang dilakukan selama 24 jam setelah durasi penutupan otomatis kebijakan pemberitahuan berakhir. Untuk mengonfigurasi durasi penutupan otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari.
  • Kondisi perkiraan:

    • Perkiraan akan dibuat dan memprediksi bahwa deret waktu tidak akan melanggar nilai minimum dalam periode perkiraan.
    • Tidak ada pengamatan yang diterima selama 10 menit, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource yang mendasarinya tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada pengamatan yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tersebut tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan tidak lagi diterima.

Misalnya, kebijakan pemberitahuan menyebabkan insiden karena latensi respons HTTP lebih besar dari 2 detik selama 10 menit berturut-turut. Jika pengukuran latensi respons HTTP berikutnya kurang dari atau sama dengan dua detik, insiden tersebut akan ditutup. Demikian pula, jika tidak ada data yang diterima selama tujuh hari, insiden akan ditutup.

Untuk menutup insiden, lakukan langkah berikut:

  1. Di panel Incidents di halaman Alerting, klik See all pelaku.
  2. Di halaman Insiden, temukan insiden yang ingin Anda tutup, lalu lakukan salah satu hal berikut:

    • Klik  Lihat lainnya, lalu pilih Tutup insiden.
    • Buka halaman detail insiden, lalu klik Tutup insiden.

Jika Anda melihat pesan Unable to close incident with active conditions, insiden tidak dapat ditutup karena data telah diterima dalam periode pemberitahuan terbaru.

Jika Anda melihat pesan Unable to close incident. Please try again in a few minutes., insiden tidak dapat ditutup karena error internal.

Retensi dan batas data

Untuk mengetahui informasi tentang batas dan periode retensi data insiden, lihat Batas pemberitahuan.

Langkah selanjutnya

* Untuk perlakuan konseptual mendetail tentang kebijakan pemberitahuan, lihat Perilaku kebijakan pemberitahuan berbasis metrik.