37. 部署檢查清單

預計完成時間:5 天

可操作元件擁有者:OLT

技能設定檔:部署工程師

從 1.14 版開始,系統會根據 Observability 和 Monitoring Stack 資訊主頁驗證部署作業是否完成。


  1. 驗證 ServiceNow 事件資訊主頁

    • 檢查是否有與部署作業相關的新事件或未解決事件。
  2. 驗證 Grafana AlertManager 資訊主頁

    • 找出任何正在觸發的警報。
  3. 分類處理新事件和快訊 如有任何新的 ServiceNow 事件或觸發的 Grafana 快訊,請按照下列步驟操作:

    1. 請參閱「已知問題」文件,確認問題是否已列在其中。
    2. 如果問題未列為已知問題,請將問題轉交給工程團隊,評估後續處理方式。解決問題時,您可能需要完成下列事項:
      • 解決根本問題。
      • 將快訊記錄為新的已知問題,例如誤判。

37.1. 確認系統健康狀態

部署完成後,系統健康狀態的主要指標是 ServiceNow (SNOW) 事件資訊主頁和 Grafana AlertManager 資訊主頁上,都沒有新的意外事件和快訊。


37.1.1. ServiceNow 事件資訊主頁

ServiceNow 資訊主頁會顯示系統自動建立的重大問題單,方便您掌握整體狀況。部署完成後,這個資訊主頁不應顯示任何新的重大事件。

您的目標是確認沒有觸發新的未記錄事件。顯示的事件必須已列在「已知問題」部分。


37.1.2. Grafana AlertManager 資訊主頁

AlertManager 資訊主頁會顯示正在觸發的快訊,讓您更即時地掌握系統狀態。通常在建立 ServiceNow 事件之前,問題就會顯示在這裡。

如果系統運作正常,就不會顯示新觸發的警報。請務必根據「已知問題」頁面驗證所有有效快訊,確認這是預期行為。


37.1.3. 解譯結果

如果兩個資訊主頁都沒有顯示新的未記錄問題,就表示部署作業順利完成,系統也穩定運作。

如果發現已知問題頁面未列出任何事件或快訊,請按照先前提及的檢查清單,繼續進行分類和提報步驟。如果發現新的誤報,請務必回報給工程團隊,以便他們適當處理及記錄。


37.2. 分流工作流程範例

如果新快訊需要調查,Grafana AlertManager 的一般分類程序包含下列步驟:

  1. 依優先順序分組:先將警示分組,專注處理最嚴重的問題。 Group_by_prio

  2. 指派案件:為確保擁有權和追蹤,請將案件指派給快訊。 Ticket_assign

  3. 檢查警示規則:調查觸發警示的特定規則,瞭解規則的條件和用途。 Review_alerting_rules

  4. 檢查觸發狀態:在資訊主頁中檢查觸發警報的詳細資料和狀態。 Check_firing_state

  5. 確認警報:最後,請確認警報是否正在觸發,且代表有效問題,再繼續進行提報程序。 Verify_Alert