預計完成時間:5 天
可操作元件擁有者:OLT
技能設定檔:部署工程師
從 1.14 版開始,系統會根據 Observability 和 Monitoring Stack 資訊主頁驗證部署作業是否完成。
驗證 ServiceNow 事件資訊主頁
- 檢查是否有與部署作業相關的新事件或未解決事件。
驗證 Grafana AlertManager 資訊主頁
- 找出任何正在觸發的警報。
分類處理新事件和快訊 如有任何新的 ServiceNow 事件或觸發的 Grafana 快訊,請按照下列步驟操作:
- 請參閱「已知問題」文件,確認問題是否已列在其中。
- 如果問題未列為已知問題,請將問題轉交給工程團隊,評估後續處理方式。解決問題時,您可能需要完成下列事項:
- 解決根本問題。
- 將快訊記錄為新的已知問題,例如誤判。
37.1. 確認系統健康狀態
部署完成後,系統健康狀態的主要指標是 ServiceNow (SNOW) 事件資訊主頁和 Grafana AlertManager 資訊主頁上,都沒有新的意外事件和快訊。
37.1.1. ServiceNow 事件資訊主頁
ServiceNow 資訊主頁會顯示系統自動建立的重大問題單,方便您掌握整體狀況。部署完成後,這個資訊主頁不應顯示任何新的重大事件。
您的目標是確認沒有觸發新的未記錄事件。顯示的事件必須已列在「已知問題」部分。
37.1.2. Grafana AlertManager 資訊主頁
AlertManager 資訊主頁會顯示正在觸發的快訊,讓您更即時地掌握系統狀態。通常在建立 ServiceNow 事件之前,問題就會顯示在這裡。
如果系統運作正常,就不會顯示新觸發的警報。請務必根據「已知問題」頁面驗證所有有效快訊,確認這是預期行為。
37.1.3. 解譯結果
如果兩個資訊主頁都沒有顯示新的未記錄問題,就表示部署作業順利完成,系統也穩定運作。
如果發現已知問題頁面未列出任何事件或快訊,請按照先前提及的檢查清單,繼續進行分類和提報步驟。如果發現新的誤報,請務必回報給工程團隊,以便他們適當處理及記錄。
37.2. 分流工作流程範例
如果新快訊需要調查,Grafana AlertManager 的一般分類程序包含下列步驟:
依優先順序分組:先將警示分組,專注處理最嚴重的問題。

指派案件:為確保擁有權和追蹤,請將案件指派給快訊。

檢查警示規則:調查觸發警示的特定規則,瞭解規則的條件和用途。

檢查觸發狀態:在資訊主頁中檢查觸發警報的詳細資料和狀態。

確認警報:最後,請確認警報是否正在觸發,且代表有效問題,再繼續進行提報程序。
