Insiden untuk kebijakan pemberitahuan berbasis metrik

Insiden adalah catatan kapan kondisi atau kondisi kebijakan pemberitahuan terpenuhi. Biasanya, saat kondisi terpenuhi, Cloud Monitoring akan membuka insiden dan mengirim notifikasi. Namun, insiden tidak dibuat saat kebijakan ditangguhkan atau dinonaktifkan, saat ada terlalu banyak insiden terbuka untuk kebijakan tersebut, atau saat resource yang mendasarinya diketahui dinonaktifkan. Selain itu, jika kebijakan pemberitahuan berisi beberapa kondisi, kebijakan pemberitahuan akan menentukan apakah memenuhi satu kondisi sudah cukup untuk menyebabkan insiden dibuat. Insiden adalah catatan kapan kondisi kebijakan pemberitahuan terpenuhi. Biasanya, saat kondisi terpenuhi, Cloud Monitoring akan membuka insiden dan mengirim notifikasi saat log diterima yang cocok dengan kondisi kebijakan pemberitahuan Anda. Namun, insiden tidak dibuat dalam situasi berikut:

  • Kebijakan ditangguhkan atau dinonaktifkan.
  • Rasio notifikasi maksimum akan melebihi batas 1 notifikasi setiap 5 menit untuk setiap kebijakan pemberitahuan berbasis log.
  • Total notifikasi harian akan melebihi batas 20 notifikasi per hari untuk setiap kebijakan pemberitahuan berbasis log.

Untuk setiap insiden, Monitoring membuat halaman Detail insiden yang memungkinkan Anda mengelola insiden, dan melaporkan informasi insiden yang dapat membantu Anda memecahkan masalah kegagalan. Misalnya, halaman Detail insiden menampilkan linimasa insiden dan diagram yang menunjukkan data metrik yang dipantau. Anda juga dapat menemukan link ke insiden dan entri log terkait.

Dokumen ini menjelaskan cara menemukan insiden. Panduan ini juga menjelaskan cara menggunakan halaman Detail insiden untuk mengelola insiden untuk kebijakan pemberitahuan berbasis metrik, yang mengevaluasi data deret waktu yang disimpan oleh Cloud Monitoring.

Sebelum memulai

Pastikan Anda memiliki izin yang diperlukan:

Untuk mendapatkan izin yang diperlukan agar dapat melihat dan mengelola insiden menggunakan konsol Google Cloud, minta administrator untuk memberi Anda peran IAM berikut di project Anda:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran Cloud Monitoring, lihat Mengontrol akses dengan Identity and Access Management.

Menemukan insiden

Untuk melihat daftar insiden di project Google Cloud Anda, lakukan langkah berikut:

  1. Di konsol Google Cloud, buka halaman  Alerting:

    Buka Pemberitahuan

    Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.

    • Panel Ringkasan mencantumkan jumlah insiden yang terbuka.
    • Panel Insiden menampilkan insiden terbuka terbaru. Untuk mencantumkan insiden terbaru dalam tabel, termasuk insiden yang ditutup, klik Tampilkan insiden tertutup.
  2. Untuk melihat detail insiden tertentu, pilih insiden dalam daftar.

    Halaman Detail insiden akan terbuka. Untuk informasi selengkapnya tentang halaman Detail insiden, lihat bagian Menyelidiki insiden di halaman ini.

Menemukan insiden yang lebih lama

Panel Insiden di halaman Pemberitahuan menampilkan insiden terbuka terbaru. Untuk menemukan insiden yang lebih lama, lakukan salah satu hal berikut:

  • Untuk melihat entri di tabel Insiden, klik  Lebih baru atau  Lebih lama.

  • Untuk membuka halaman Insiden, klik Lihat semua insiden. Dari halaman Insiden, Anda dapat melakukan semua hal berikut:

    • Tampilkan insiden yang ditutup: Untuk mencantumkan semua insiden dalam tabel, klik Tampilkan insiden yang ditutup.
    • Memfilter insiden: Untuk informasi tentang cara menambahkan filter, lihat Memfilter insiden.
    • Mengonfirmasi atau menutup insiden, atau menunda kebijakan pemberitahuannya. Untuk mengakses opsi ini, klik  Opsi lainnya di baris insiden, lalu pilih dari menu. Untuk informasi selengkapnya, lihat Mengelola insiden.

Filter insiden

Saat Anda memasukkan nilai di panel filter, hanya insiden yang cocok dengan filter yang dicantumkan dalam tabel Insiden. Jika Anda menambahkan beberapa filter, insiden hanya akan ditampilkan jika memenuhi semua filter.

Untuk menambahkan filter ke tabel insiden, lakukan tindakan berikut:

  1. Di halaman Insiden, klik  Filter table, lalu pilih properti filter. Properti filter mencakup semua hal berikut:

    • Status insiden
    • Nama kebijakan pemberitahuan
    • Kapan insiden dibuka atau ditutup
    • Jenis metrik
    • Jenis resource
  2. Pilih nilai dari menu sekunder atau masukkan nilai di panel filter.

    Misalnya, jika Anda memilih Metric type dan memasukkan usage_time, Anda mungkin hanya melihat opsi berikut di menu sekunder:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Menyelidiki insiden

Halaman Detail insiden berisi informasi yang dapat membantu Anda mengidentifikasi penyebab insiden.

Menjelajahi data metrik

Untuk menganalisis status metrik sebelum dan sesudah insiden terjadi, gunakan diagram Metrik Notifikasi. Diagram ini menampilkan linimasa dan deret waktu yang menyebabkan kondisi kebijakan pemberitahuan Anda terpenuhi.

Anda dapat menyesuaikan rentang linimasa untuk mencari tren dan pola dalam data metrik Anda terkait insiden:

  • Untuk beralih antara hanya menampilkan deret waktu yang menyebabkan kondisi terpenuhi dan menampilkan semua deret waktu yang dievaluasi oleh kondisi, klik Tampilkan semua deret waktu.

  • Untuk mengubah rentang waktu yang ditampilkan oleh diagram, Anda dapat menggunakan pemilih rentang waktu di toolbar, atau menandai rentang waktu pada diagram dengan kursor.

Anda juga dapat menganalisis data metrik secara lebih mendetail dengan melihatnya di Metrics Explorer. Untuk melakukannya, buka diagram Metrik Notifikasi, lalu klik Jelajahi Data. Secara default, Metrics Explorer menggabungkan dan memfilter data metrik sehingga diagram metrik selaras dengan deret waktu yang ditampilkan di linimasa Metrik Notifikasi.

Menjelajahi entri log

Panel Logs di halaman Incident details menampilkan entri log yang cocok dengan jenis resource dan label resource yang dimonitor untuk metrik Anda. Anda dapat menganalisis entri log ini untuk menemukan informasi tambahan yang dapat membantu Anda memecahkan masalah insiden.

  • Untuk melihat entri log di Logs Explorer, klik View in Logs Explorer, lalu pilih project cakupan. Logs Explorer menyediakan alat tambahan untuk menganalisis data entri log, seperti linimasa waktu pembuatan entri log terkait.
  • Untuk melihat dan mengedit kueri yang digunakan untuk memfilter entri log di Metrics Explorer, klik Explore Data.

Melihat informasi tambahan

Bagian Label menampilkan label dan nilai untuk resource yang dimonitor dan metrik deret waktu yang menyebabkan insiden, serta label pengguna yang ditentukan dalam kebijakan pemberitahuan. Informasi ini dapat membantu Anda mengidentifikasi resource tertentu yang dipantau dan menyebabkan insiden. Untuk informasi selengkapnya, lihat Menambahkan anotasi pada insiden dengan label.

Bagian Dokumentasi menampilkan template dokumentasi untuk notifikasi yang Anda berikan saat membuat kebijakan pemberitahuan. Informasi ini mungkin mencakup deskripsi tentang apa yang dipantau oleh kebijakan pemberitahuan dan menyertakan tips mitigasi. Untuk informasi selengkapnya, lihat Memberikan anotasi pada notifikasi menggunakan dokumentasi yang ditentukan pengguna.

Jika Anda tidak mengonfigurasi dokumentasi untuk kebijakan pemberitahuan, panel Dokumentasi akan menampilkan "Tidak ada dokumentasi yang dikonfigurasi".

Untuk membantu menemukan masalah mendasar di seluruh aplikasi, Anda dapat menjelajahi insiden yang terkait dengan kondisi kebijakan pemberitahuan lainnya.

Bagian Insiden Terkait menampilkan daftar insiden yang cocok dengan salah satu dari hal berikut:

  • Insiden dibuat saat kondisi kebijakan pemberitahuan yang sama terpenuhi.
  • Insiden memiliki label yang sama dengan insiden yang ditampilkan di halaman detail Insiden.

Mengelola Insiden

Insiden berada dalam salah satu status berikut:

  •  Terbuka: Kumpulan kondisi kebijakan pemberitahuan terpenuhi atau tidak ada data untuk menunjukkan bahwa kondisi tidak lagi terpenuhi. Jika kebijakan pemberitahuan berisi beberapa kondisi, insiden akan dibuka bergantung pada cara penggabungan kondisi tersebut. Untuk mengetahui informasi selengkapnya, lihat Kebijakan dengan beberapa kondisi.

  •  Terkonfirmasi: Insiden terbuka dan telah ditandai secara manual sebagai terkonfirmasi. Biasanya, status ini menunjukkan bahwa insiden sedang diselidiki.

  •  Ditutup: Sistem mengamati bahwa kondisi berhenti terpenuhi, Anda menutup insiden, atau 7 hari berlalu tanpa pengamatan bahwa kondisi terus terpenuhi.

Saat Anda mengonfigurasi kebijakan pemberitahuan, pastikan bahwa steady-state memberikan sinyal saat semuanya baik-baik saja. Hal ini diperlukan untuk memastikan bahwa status bebas error dapat diidentifikasi dan, jika insiden terbuka, insiden tersebut akan ditutup. Jika tidak ada sinyal yang menunjukkan bahwa kondisi error telah berhenti, setelah insiden dibuka, insiden tersebut akan tetap terbuka selama 7 hari setelah kebijakan pemberitahuan diaktifkan.

Misalnya, jika Anda membuat kebijakan pemberitahuan yang memberi tahu Anda saat jumlah error lebih dari 0, pastikan kebijakan tersebut menghasilkan jumlah error 0 jika tidak ada error. Jika kebijakan pemberitahuan menampilkan null atau kosong dalam status bebas error, tidak ada sinyal untuk menunjukkan kapan error berhenti. Dalam beberapa situasi, Monitoring Query Language (MQL) mendukung kemampuan Anda untuk menentukan nilai default yang digunakan saat tidak ada nilai yang diukur yang tersedia. Untuk contoh, lihat Rasio penggunaan.

Mengonfirmasi insiden

Sebaiknya tandai insiden sebagai dikonfirmasi saat Anda mulai menyelidiki penyebab insiden.

Untuk menandai insiden sebagai ditanggapi, lakukan tindakan berikut:

  1. Di panel Incidents pada halaman Alerting, klik See all incidents.
  2. Di halaman Insiden, temukan insiden yang ingin Anda konfirmasi, lalu lakukan salah satu hal berikut:

    • Klik  Opsi lainnya, lalu pilih Konfirmasi.
    • Buka halaman detail untuk insiden, lalu klik Konfirmasi insiden.

Jika kebijakan pemberitahuan Anda dikonfigurasi untuk mengirim notifikasi berulang, mengonfirmasi insiden tidak akan menghentikan notifikasi. Untuk menghentikannya, lakukan salah satu hal berikut:

  • Buat penundaan untuk kebijakan pemberitahuan.
  • Nonaktifkan kebijakan pemberitahuan.

Menunda kebijakan pemberitahuan

Untuk mencegah Pemantauan membuat insiden dan mengirim notifikasi selama jangka waktu tertentu, tunda kebijakan pemberitahuan terkait. Saat Anda menunda kebijakan pemberitahuan, Monitoring juga akan menutup semua insiden yang terkait dengan kebijakan pemberitahuan.

Untuk menunda notifikasi insiden yang Anda lihat, lakukan tindakan berikut:

  1. Di halaman Detail insiden, klik Kebijakan Tunda.

  2. Pilih durasi penundaan. Setelah Anda memilih durasi penundaan, penundaan akan segera dimulai.

Anda juga dapat menunda kebijakan pemberitahuan dari halaman Incidents dengan menemukan insiden yang ingin Anda tunda, mengklik  More options, lalu memilih Snooze. Anda dapat menunda kebijakan pemberitahuan selama pemadaman untuk mencegah notifikasi lebih lanjut selama proses pemecahan masalah.

Menutup insiden

Anda dapat mengizinkan Pemantauan menutup insiden untuk Anda, atau Anda dapat menutup insiden setelah pengamatan berhenti diterima. Jika Anda menutup insiden, lalu data tiba yang menunjukkan bahwa kondisi terpenuhi, insiden baru akan dibuat. Saat Anda menutup insiden, tindakan tersebut tidak akan menutup insiden lain yang terbuka untuk kondisi yang sama. Jika Anda menunda kebijakan pemberitahuan, insiden yang terbuka akan ditutup saat penundaan dimulai.

Pemantauan akan otomatis menutup insiden jika salah satu hal berikut terjadi:

  • Kondisi nilai minimum metrik:

    • Pengamatan akan muncul yang menunjukkan bahwa nilai minimum tidak dilanggar.
    • Tidak ada pengamatan yang masuk, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti masuk, dan status resource pokok tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada pengamatan yang diterima selama durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan berhenti diterima. Untuk mengonfigurasi durasi tutup otomatis, Anda dapat menggunakan konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari. Durasi penutupan otomatis minimum adalah 30 menit.

  • Kondisi ketiadaan metrik:

    • Pengamatan terjadi.
    • Tidak ada pengamatan yang diterima selama 24 jam setelah masa berlaku penutupan otomatis kebijakan pemberitahuan berakhir. Untuk mengonfigurasi durasi penutupan otomatis, Anda dapat menggunakan konsol Google Cloud atau Cloud Monitoring API. Secara default, durasi penutupan otomatis adalah tujuh hari.
  • Kondisi perkiraan:

    • Perkiraan dibuat dan memprediksi bahwa deret waktu tidak akan melanggar nilai minimum dalam periode perkiraan.
    • Tidak ada pengamatan yang masuk selama 10 menit, kondisi dikonfigurasi untuk menutup insiden saat pengamatan berhenti masuk, dan status resource yang mendasarinya tidak diketahui atau tidak dinonaktifkan.

    • Tidak ada pengamatan yang diterima selama durasi penutupan otomatis kebijakan pemberitahuan dan kondisi tidak dikonfigurasi untuk menutup insiden secara otomatis saat pengamatan berhenti diterima.

Misalnya, kebijakan pemberitahuan menghasilkan insiden karena latensi respons HTTP lebih dari 2 detik selama 10 menit berturut-turut. Jika pengukuran latensi respons HTTP berikutnya kurang dari atau sama dengan dua detik, insiden akan ditutup. Demikian pula, jika tidak ada data sama sekali yang diterima selama tujuh hari, insiden akan ditutup.

Untuk menutup insiden, lakukan tindakan berikut:

  1. Di panel Incidents pada halaman Alerting, klik See all incidents.
  2. Di halaman Insiden, temukan insiden yang ingin Anda tutup, lalu lakukan salah satu tindakan berikut:

    • Klik  Lihat lainnya, lalu pilih Tutup insiden.
    • Buka halaman Incident details untuk insiden tersebut, lalu klik Close incident.
Jika Anda melihat pesan Unable to close incident with active conditions, inciden tidak dapat ditutup karena data telah diterima dalam periode pemberitahuan terbaru.

Jika Anda melihat pesan Unable to close incident. Please try again in a few minutes., insiden tidak dapat ditutup karena error internal.

Batas dan retensi data

Untuk mengetahui informasi tentang batas dan periode retensi insiden, lihat Batas untuk pemberitahuan.

Langkah selanjutnya