37. Checklist deployment

Perkiraan waktu penyelesaian: 5 hari

Pemilik komponen yang dapat dioperasikan: OLT

Profil keterampilan: Deployment engineer

Mulai versi 1.14, penyelesaian deployment diverifikasi terhadap dasbor Observability and Monitoring Stack.


  1. Memverifikasi Dasbor Insiden ServiceNow

    • Periksa apakah ada insiden baru atau belum terselesaikan yang terkait dengan deployment.
  2. Memverifikasi Dasbor AlertManager Grafana

    • Cari pemberitahuan yang aktif.
  3. Menyeleksi Insiden dan Pemberitahuan Baru Untuk setiap insiden ServiceNow baru atau pemberitahuan Grafana yang muncul, ikuti langkah-langkah berikut:

    1. Silangkan referensi masalah dengan dokumen Masalah Umum.
    2. Jika masalah tidak tercantum sebagai masalah umum, eskalasikan ke Tim Engineering untuk menilai langkah selanjutnya. Penyelesaian masalah ini mungkin mengharuskan Anda menyelesaikan hal berikut:
      • Selesaikan masalah pokoknya.
      • Mencatat pemberitahuan sebagai masalah umum baru, seperti jika itu adalah positif palsu.

37.1. Memverifikasi kesehatan sistem

Setelah deployment, indikator utama kondisi sistem adalah tidak adanya insiden dan notifikasi baru yang tidak terduga di dasbor Insiden ServiceNow (SNOW) dan dasbor AlertManager Grafana.


37.1.1. Dasbor Insiden ServiceNow

Dasbor ServiceNow memberikan tampilan tingkat tinggi tentang masalah signifikan yang telah otomatis dibuatkan tiketnya oleh sistem. Setelah deployment, dasbor ini tidak boleh menampilkan insiden baru yang kritis.

Tujuan Anda adalah untuk mengonfirmasi bahwa tidak ada insiden baru yang tidak terdokumentasi yang dipicu. Setiap insiden yang muncul harus sudah tercantum di bagian masalah umum.


37.1.2. Dasbor Grafana AlertManager

Dasbor AlertManager menawarkan tampilan status sistem yang lebih langsung dan real-time dengan menampilkan pemberitahuan yang aktif. Masalah akan sering muncul di sini sebelum insiden ServiceNow dibuat.

Sistem yang sehat tidak akan menampilkan pemberitahuan penembakan baru. Setiap pemberitahuan aktif harus diverifikasi terhadap halaman masalah umum untuk mengonfirmasi bahwa pemberitahuan tersebut adalah perilaku yang diharapkan.


37.1.3. Menafsirkan hasil

Jika kedua dasbor tidak menampilkan masalah baru dan tidak terdokumentasi, hal ini menjadi konfirmasi kuat bahwa deployment berhasil dan sistem stabil.

Jika Anda menemukan insiden atau pemberitahuan yang tidak tercantum di halaman masalah umum, lanjutkan langkah-langkah triase dan eskalasi yang diuraikan dalam checklist yang disebutkan sebelumnya. Positif palsu baru harus dilaporkan kepada tim engineering agar dapat ditangani dan didokumentasikan dengan tepat.


37.2. Contoh alur kerja penyeleksian

Jika ada pemberitahuan baru yang memerlukan penyelidikan, proses triase umum di Grafana AlertManager melibatkan langkah-langkah berikut:

  1. Kelompokkan menurut prioritas: Pertama, kelompokkan pemberitahuan untuk berfokus pada masalah yang paling penting. Group_by_prio

  2. Tetapkan tiket: Untuk memastikan kepemilikan dan pelacakan, tetapkan tiket ke pemberitahuan. Ticket_assign

  3. Tinjau aturan pemberitahuan: Selidiki aturan pemberitahuan tertentu yang dipicu untuk memahami kondisi dan tujuannya. Review_alerting_rules

  4. Periksa status pemicuan: Periksa detail dan status pemberitahuan pemicuan di dasbor. Check_firing_state

  5. Verifikasi Pemberitahuan: Terakhir, konfirmasi bahwa pemberitahuan aktif dan mewakili masalah yang valid sebelum melanjutkan proses eskalasi. Verify_Alert