警告總覽

透過快訊,您可以隨時掌握與外界隔絕部署作業的健康狀態和效能。當符合特定條件時,這些通知會及時發送,讓您執行下列操作:

  • 主動解決問題:在問題影響使用者或業務營運前,偵測並回應問題。
  • 減少停機時間:迅速採取修正措施,盡量減少服務中斷。
  • 維持服務等級:確保應用程式達到效能和可用性目標。
  • 取得作業洞察:找出環境中的趨勢和模式,以最佳化資源用量和效能。

本頁提供在 Google Distributed Cloud (GDC) 實體隔離環境中建立及管理快訊的總覽。說明如何使用監控資料,主動找出並回應應用程式和基礎架構中的重大事件。

快訊政策類型

以指標為準的快訊政策會追蹤監控資料,並在資源符合預先設定的條件時,通知特定人員。舉例來說,如果事件啟動了監控虛擬機器 CPU 使用率的快訊政策,系統可能會傳送通知。或者,監控運作時間檢查的政策可能會通知待命和開發團隊。

另一方面,如要監控記錄檔中一段時間內重複發生的事件,請使用記錄指標建立警告政策。記錄指標會從記錄資料產生數值資料。如果您想執行下列任一操作,就適合使用記錄指標:

  • 計算記錄中出現的訊息次數,例如警告或錯誤。當事件數量超過門檻時,系統會傳送通知。
  • 觀察資料趨勢,例如記錄中的延遲值。如果值變更為不可接受,您會收到通知。
  • 建立圖表,顯示從記錄檔擷取的數值資料。

在 GDC 中,快訊可以為重大錯誤產生頁面和工單。頁面需要操作人員立即處理,而工單則較不緊急。

重要元件

GDC 警報服務使用下列元件:

  • Prometheus:開放原始碼監控系統,廣泛用於收集及儲存指標。Prometheus 提供功能強大的查詢語言 (PromQL),可定義快訊規則。
  • 監控平台:這項代管監控服務會從各種來源 (包括 Prometheus) 收集指標。這項服務提供 Grafana 資訊主頁、自訂指標和快訊等進階功能。
  • Alertmanager:負責接收、處理及轉送快訊的元件。支援警報分組、靜音和禁止功能,可減少干擾並提高效率。

警示工作流程

Google Distributed Cloud 提供快訊架構,可與各種監控工具和服務整合。一般工作流程包含下列階段:

  1. 資料收集:使用 Prometheus 和 Fluent Bit 等工具,從應用程式、基礎架構和 Kubernetes 收集指標和記錄。
  2. 監控:在 Grafana 資訊主頁中儲存及顯示收集到的資料。
  3. 快訊規則:根據特定條件定義快訊規則,例如 CPU 使用量超過門檻,或應用程式錯誤率超過特定比率。
  4. Alertmanager:Alertmanager 會接收由定義的規則觸發的快訊,並處理通知的轉送和靜音。
  5. 通知:透過電子郵件、訊息或 webhook 等各種管道接收快訊。

最佳做法

設定快訊時,請參考下列最佳做法:

  • 定義清楚且可據以行動的快訊:確保快訊提供有關問題的具體資訊,並建議適當的行動。
  • 設定適當的嚴重程度:根據警報的影響程度和緊急程度分類,優先處理重要警報。
  • 避免過多快訊:微調快訊規則,盡量減少誤判和不必要的通知。
  • 定期測試快訊:確認快訊是否正確觸發,以及通知是否如預期送達。
  • 記錄通知策略:記錄通知規則、通知管道和提報程序。