Insiden untuk pemberitahuan berbasis metrik

Insiden, juga disebut pemberitahuan, adalah data pemicuan kebijakan pemberitahuan. Biasanya, Cloud Monitoring membuka insiden dan mengirim notifikasi saat kondisi kebijakan pemberitahuan dipicu. Namun, insiden tidak dibuat saat kebijakan ditunda atau dinonaktifkan, saat ada terlalu banyak insiden terbuka untuk kebijakan tersebut, atau saat resource yang mendasarinya dikenal sebagai dinonaktifkan. Selain itu, saat kebijakan pemberitahuan berisi beberapa kondisi, kombinasinya menentukan apakah pemicuan satu kondisi menyebabkan pembuatan insiden.

Dokumen ini menjelaskan cara untuk melihat, menyelidiki, dan mengelola insiden untuk kebijakan pemberitahuan berbasis metrik.

Sebelum memulai

Pastikan Anda memiliki izin yang diperlukan:

Untuk mengetahui informasi lebih lanjut tentang peran Cloud Monitoring, baca artikel Mengontrol akses dengan Identity and Access Management.

Menemukan insiden

Untuk melihat daftar insiden, lakukan hal berikut:

  1. Pada panel navigasi Konsol Google Cloud, pilih Monitoring, lalu pilih  Alerting:

    Buka Alerting

    • Panel Summary mencantumkan jumlah insiden yang terbuka.
    • Panel Insiden menampilkan insiden terbuka terbaru. Untuk melihat daftar insiden terbaru dalam tabel, termasuk insiden yang ditutup, klik Tampilkan insiden yang ditutup.
  2. Opsional: Untuk melihat detail insiden tertentu, pilih insiden dalam daftar. Halaman Detail insiden akan terbuka. Untuk mengetahui informasi tentang halaman ini, lihat bagian Menyelidiki insiden di halaman ini.

Menemukan insiden yang lebih lama

Panel Insiden di halaman Alerting menampilkan insiden terbuka terbaru. Untuk menemukan insiden yang lebih lama, lakukan salah satu hal berikut:

  • Untuk melihat entri dalam tabel Insiden, klik  Newer atau  Lebih lama.

  • Untuk membuka halaman Insiden, klik Lihat semua insiden. Dari halaman Insiden, Anda dapat melakukan semua hal berikut:

    • Menampilkan insiden ditutup: Untuk mencantumkan semua insiden dalam tabel, klik Tampilkan insiden tertutup.
    • Filter insiden: Untuk mengetahui informasi tentang cara menambahkan filter, lihat Memfilter insiden.
    • Konfirmasi atau tutup insiden, atau tunda kebijakan pemberitahuannya. Untuk mengakses opsi ini, klik  Opsi lainnya di baris insiden, dan buat pilihan dari menu. Untuk informasi selengkapnya, lihat Mengelola insiden.

Filter insiden

Saat Anda memasukkan nilai di panel filter, hanya insiden yang cocok dengan filter yang akan dicantumkan di tabel Insiden. Jika Anda menambahkan beberapa filter, insiden akan ditampilkan hanya jika memenuhi semua filter.

Untuk menambahkan filter tabel insiden, lakukan tindakan berikut:

  1. Di halaman Insiden, klik  Tabel filter, lalu pilih properti filter. Properti filter mencakup semua hal berikut:

    • Keadaan insiden
    • Nama kebijakan pemberitahuan
    • Kapan insiden dibuka atau ditutup
    • Jenis metrik
    • Jenis aset
  2. Pilih nilai dari menu sekunder atau masukkan nilai di panel filter.

    Misalnya, jika memilih Metric type dan memasukkan usage_time, Anda mungkin hanya melihat opsi berikut di menu sekunder:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Menyelidiki insiden

Setelah menemukan insiden yang ingin diselidiki, buka halaman Detail insiden untuk insiden tersebut. Untuk melihat detailnya, pilih ringkasan insiden pada tabel insiden di halaman Pemberitahuan atau halaman Insiden.

Atau, jika Anda menerima notifikasi yang menyertakan link ke insiden, Anda dapat menggunakan link tersebut untuk melihat detail insiden.

Halaman Detail insiden memberikan informasi berikut:

  • Informasi status, termasuk:

    • Nama: Nama kebijakan pemberitahuan yang menyebabkan insiden ini.
    • Status: Status insiden: terbuka, dikonfirmasi, atau ditutup.
    • Tingkat keparahan: Tingkat keparahan insiden:
      • Tidak Ada Tingkat Keparahan
      • Penting
      • Error
      • Peringatan
    • Durasi: Lamanya waktu saat insiden tersebut terbuka.
  • Informasi tentang kebijakan pemberitahuan yang menyebabkan insiden:

    • Panel Condition: mengidentifikasi kondisi dalam kebijakan pemberitahuan yang menyebabkan insiden.

    • Panel Message: memberikan penjelasan singkat tentang penyebabnya berdasarkan konfigurasi kondisi dalam kebijakan pemberitahuan. Panel ini selalu diisi.

    • Panel Dokumentasi: menampilkan template dokumentasi untuk notifikasi yang Anda berikan saat membuat kebijakan pemberitahuan. Informasi ini mungkin mencakup deskripsi tentang hal yang dipantau oleh kebijakan pemberitahuan dan menyertakan tips untuk mitigasi.

      Jika Anda melewati kolom ini saat membuat kebijakan pemberitahuan, panel ini akan melaporkan "No documentation is configuration".

  • Label: melaporkan hal berikut:
    • Label dan nilai untuk resource dan metrik yang dimonitor deret waktu yang memicu kebijakan pemberitahuan. Informasi ini dapat membantu Anda mengidentifikasi resource tertentu yang dimonitor yang menyebabkan insiden tersebut.

      Saat Anda menggunakan variabel dalam dokumentasi untuk label metrik, Monitoring akan menghapus label dari notifikasi jika nilai label tidak diawali dengan digit, huruf, garis miring (/), atau tanda sama dengan (=).

    • Label dan nilai yang ditentukan pengguna, yang Anda tetapkan di kebijakan pemberitahuan. Anda dapat menggunakan label ini untuk mengatur dan mengidentifikasi kebijakan pemberitahuan. Label yang terkait dengan kebijakan dicantumkan di bagian Label Kebijakan, sedangkan label yang ditetapkan sebagai bagian dari kondisi dicantumkan di bagian Label metrik. Label metadata hanya ditampilkan jika terdapat filter atau pengelompokan yang bergantung pada label tersebut. Untuk contoh penggunaannya, lihat bagian Menambahkan tingkat keparahan ke kebijakan pemberitahuan.

Halaman Detail insiden juga menyediakan alat untuk menyelidiki insiden:

  • Linimasa insiden: Menampilkan dua representasi visual insiden:

    • Pada linimasa, batang merah merepresentasikan waktu insiden; panjang dan posisi batang mencerminkan durasi insiden.
    • Diagram menampilkan data deret waktu dan nilai minimum yang digunakan oleh kebijakan pemberitahuan yang menyebabkan insiden. Insiden ini dibuka saat deret waktu tertentu memenuhi kondisi kebijakan pemberitahuan.

    Sumbu waktu menunjukkan durasi insiden dengan dua titik berlabel. Posisi titik-titik tersebut pada sumbu waktu menentukan rentang data yang ditampilkan pada diagram yang menyertai linimasa insiden. Secara default, satu titik diposisikan pada waktu pembukaan insiden dan satu titik saat penutupan insiden, atau pada waktu saat ini jika insiden masih terbuka.

    Anda dapat mengubah rentang waktu pada linimasa insiden dan diagram:

    • Untuk mengubah rentang waktu yang ditampilkan pada diagram, tarik salah satu titik di sepanjang sumbu waktu. Dengan menggunakan teknik ini, Anda dapat berfokus pada interval tertentu, misalnya, di sekitar awal atau akhir insiden.

      Mengubah diagram dengan menarik titik-titik pada sumbu menetapkan nilai kustom di menu Time Span dan menonaktifkan menu. Untuk mengaktifkan menu Time Span, klik Reset.

    • Untuk mengubah rentang waktu yang ditampilkan di linimasa, pilih rentang dari menu Time Span.
  • Link ke alat pemecahan masalah lainnya. Konfigurasi project Anda, kebijakan pemberitahuan, dan usia insiden menentukan link mana yang tersedia.
    • Untuk melihat halaman detail kebijakan pemberitahuan, klik View policy.
    • Untuk mengedit definisi kebijakan pemberitahuan, klik Edit policy.
    • Untuk membuka dasbor informasi performa resource, klik View resource details.
    • Untuk melihat entri log terkait di Logs Explorer, klik View logs. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Logs Explorer.
    • Untuk menyelidiki data dalam diagram, klik Lihat di Metrics Explorer.
  • Anotasi: Memberikan log tentang temuan, hasil, saran, atau komentar lain dari investigasi Anda atas insiden tersebut.
    • Untuk menambahkan anotasi, masukkan teks dalam kolom, lalu klik Add comment.
    • Untuk menghapus komentar, klik Batal.

Mengelola insiden

Insiden berada dalam salah satu status berikut:

  • Terbuka: Serangkaian kondisi kebijakan pemberitahuan terpenuhi atau tidak ada data yang menunjukkan bahwa kondisi tersebut tidak lagi terpenuhi. Jika kebijakan pemberitahuan berisi beberapa kondisi, insiden akan dibuka bergantung pada cara kondisi tersebut digabungkan. Baca Menggabungkan kondisi untuk mengetahui informasi selengkapnya.

  • Dikonfirmasi: Insiden ini terbuka dan telah ditandai secara manual sebagai dikonfirmasi. Biasanya, status ini menunjukkan bahwa insiden sedang diselidiki.

  • Ditutup: Sistem mengamati bahwa kondisi berhenti terpenuhi, Anda menutup insiden, atau 7 hari berlalu tanpa pengamatan bahwa kondisi terus terpenuhi.

Saat mengonfigurasi kebijakan pemberitahuan, pastikan bahwa dalam keadaan stabil, ada sinyal saat semuanya baik-baik saja. Hal ini diperlukan untuk memastikan bahwa status bebas error dapat diidentifikasi dan, jika terjadi insiden, untuk insiden tersebut ditutup. Jika tidak ada sinyal yang menunjukkan bahwa kondisi error telah berhenti, setelah insiden dibuka, kondisi tersebut akan tetap terbuka selama 7 hari setelah kebijakan pemberitahuan diaktifkan.

Misalnya, jika Anda membuat kebijakan pemberitahuan yang memberi tahu Anda saat jumlah error lebih dari 0, pastikan kebijakan ini menghasilkan error sebanyak 0 jika tidak ada error. Jika kebijakan pemberitahuan menampilkan null atau kosong dalam status bebas error, tidak ada sinyal yang menunjukkan kapan error telah berhenti. Dalam beberapa situasi, Bahasa Kueri Monitoring (MQL) memungkinkan Anda menentukan nilai default yang digunakan saat tidak ada nilai terukur yang tersedia. Sebagai contoh, lihat Menggunakan rasio.

Mengakui insiden

Sebaiknya Anda menandai insiden sebagai dikonfirmasi saat Anda mulai menyelidiki penyebab insiden tersebut.

Untuk menandai insiden sebagai dikonfirmasi, lakukan hal berikut:

  • Di panel Incidents di halaman Alerting, klik See allIncident.
  • Di halaman Insiden, temukan insiden yang ingin Anda konfirmasi, lalu lakukan salah satu tindakan berikut:

    • Klik  Opsi lainnya, lalu pilih Konfirmasi.
    • Buka halaman detail insiden, lalu klik Acknowledge insiden.

Jika kebijakan pemberitahuan Anda dikonfigurasi untuk mengirim notifikasi berulang, mengonfirmasi suatu insiden tidak akan menghentikan notifikasi tersebut. Untuk menghentikannya, lakukan salah satu langkah berikut:

  • Buat penundaan untuk kebijakan pemberitahuan.
  • Nonaktifkan kebijakan pemberitahuan.

Menunda kebijakan pemberitahuan

Untuk mencegah Monitoring membuat insiden dan mengirim notifikasi selama jangka waktu tertentu, tunda kebijakan pemberitahuan terkait. Saat Anda menunda kebijakan pemberitahuan, Monitoring juga akan menutup semua insiden yang terkait dengan kebijakan pemberitahuan.

Untuk membuat penundaan bagi insiden yang sedang Anda lihat, lakukan hal berikut:

  1. Di halaman Detail insiden, klik Tunda.

  2. Pilih durasi penundaan. Setelah Anda memilih durasi penundaan, penundaan akan segera dimulai.

Saat melihat halaman detail insiden, Anda dapat membuat penundaan untuk kebijakan pemberitahuan terkait dengan mengklik Tunda, lalu memilih durasi. Penundaan akan segera dimulai. Anda juga dapat menunda kebijakan pemberitahuan dari halaman Insiden dengan menemukan insiden yang ingin Anda tunda, mengklik  More options, lalu memilih Tunda. Anda dapat menunda kebijakan pemberitahuan selama gangguan layanan untuk mencegah notifikasi lebih lanjut selama proses pemecahan masalah.

Tutup insiden

Anda dapat mengizinkan Monitoring menutup insiden, atau menutup insiden setelah observasi berhenti tiba. Jika Anda menutup insiden lalu data masuk yang menunjukkan kondisi terpenuhi, insiden baru akan dibuat. Saat Anda menutup insiden, tindakan tersebut tidak menutup insiden lain yang terbuka untuk kondisi yang sama. Jika Anda menunda kebijakan pemberitahuan, insiden yang terbuka akan ditutup saat penundaan dimulai.

Monitoring akan otomatis menutup insiden jika salah satu dari hal berikut terjadi:

  • Kondisi batas metrik:

    • Observasi tiba yang menunjukkan bahwa ambang batas tidak dilanggar.
    • Tidak ada pengamatan yang dilakukan, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource dasar tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada observasi yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat observasi berhenti tiba. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi tutup otomatis adalah tujuh hari. Durasi tutup otomatis minimum adalah 30 menit.

  • Kondisi ketiadaan metrik:

    • Suatu observasi terjadi.
    • Tidak ada pengamatan yang dilakukan selama 24 jam setelah durasi tutup otomatis kebijakan pemberitahuan berakhir. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan Konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi tutup otomatis adalah tujuh hari.
  • Kondisi perkiraan:

    • Perkiraan dibuat dan memprediksi bahwa deret waktu tidak akan melanggar nilai minimum dalam periode perkiraan.
    • Tidak ada pengamatan yang dilakukan selama 10 menit, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti tiba, dan status resource dasar tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada observasi yang dilakukan untuk durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat observasi berhenti tiba.

Misalnya, kebijakan pemberitahuan menyebabkan insiden karena latensi respons HTTP lebih besar dari 2 detik selama 10 menit berturut-turut. Jika pengukuran latensi respons HTTP berikutnya kurang dari atau sama dengan dua detik, insiden akan ditutup. Demikian pula, jika tidak ada data sama sekali yang diterima selama tujuh hari, insiden akan ditutup.

Untuk menutup insiden, lakukan langkah berikut:

  1. Di panel Incidents di halaman Alerting, klik See allIncident.
  2. Di halaman Insiden, temukan insiden yang ingin Anda tutup, lalu lakukan salah satu hal berikut:

    • Klik  Lihat lainnya, lalu pilih Tutup insiden.
    • Buka halaman detail insiden, lalu klik Tutup insiden.

Jika Anda melihat pesan Unable to close incident with active conditions, insiden tersebut tidak dapat ditutup karena data telah diterima dalam periode pemberitahuan terbaru.

Jika Anda melihat pesan Unable to close incident. Please try again in a few minutes., berarti insiden tidak dapat ditutup karena error internal.

Batas dan retensi data

Untuk mengetahui informasi tentang batas dan periode retensi insiden, lihat Batas untuk pemberitahuan dan cek uptime.

Langkah selanjutnya

* Untuk perlakuan konseptual mendetail tentang kebijakan pemberitahuan, lihat Perilaku pemberitahuan.