可觀測性是指系統監控、記錄、快訊和其他追蹤資訊,用於查看基礎架構和服務的狀態與健康情況。Google Distributed Cloud (GDC) 氣隙隔離裝置的可觀測性元件會收集記錄和指標,這些資料會顯示在 Grafana 資訊主頁中,您可以查詢這些資料來找出作業問題。
平台管理員可以使用可觀測性平台監控系統和使用者叢集,並在 Grafana 使用者介面 (UI) 中顯示記錄和指標。應用程式運算子可以收集應用程式的監控和作業資料,包括記錄、指標和事件。
可觀測性平台會在管理員和使用者叢集中部署堆疊元件。平台管理員的 Grafana 執行個體包含機構層級指標,例如 CPU 使用率和儲存空間用量,以及 GDC 中管理員、系統和使用者叢集可運作元件的快訊、記錄和指標。
應用程式運算子的 Grafana 執行個體不包含專案的任何預設資訊主頁或記錄。建立資訊主頁後,只有在啟用專案的指標收集功能時,才會顯示資訊主頁。
平台元件
GDC 監控和記錄堆疊包含開放原始碼服務,是可觀測性平台的一部分。這些服務會從 Kubernetes Pod、裸機、網路交換器和儲存裝置收集記錄。
如要進一步瞭解每個可觀測性元件,請參閱下表。
元件 | 類型 | 叢集 | 說明 |
---|---|---|---|
anthos-prometheus-k8s |
StatefulSet | 僅限系統 | Prometheus (https://prometheus.io/docs/introduction/overview ): 用於收集及儲存指標和評估快訊的時間序列資料庫。它會以鍵/值組合的形式新增標籤,並從 Kubernetes 節點、Pod、裸機、網路交換器和儲存裝置收集指標。資料庫會將使用者叢集的指標儲存在同一個叢集,並匯總管理員叢集中所有叢集的指標。 |
grafana |
StatefulSet | 僅限系統 | Grafana (https://grafana.com/docs/grafana/latest/): 使用者介面,可將指標和快訊的資訊主頁視覺化。查看 Prometheus 收集的指標,以及查詢 Loki 的記錄。使用者可透過這項服務,以視覺化方式呈現指標和快訊的資訊主頁。 |
alertmanager |
StatefulSet | 僅限系統 | Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/): 使用者定義的管理工具,會在記錄或指標顯示系統元件故障或運作異常時傳送快訊。可管理 Prometheus 快訊的路由、靜音和彙整作業。 |
loki |
StatefulSet | 僅限系統 | Loki (https://grafana.com/docs/loki/latest/): 時間序列資料庫,用於儲存各種元件的記錄,以及匯總所有叢集的記錄。 |
audit-logs-loki |
StatefulSet | 僅限系統 | Loki: 次要執行個體,用於收集稽核所需的長期記錄。並匯總所有叢集的記錄。 |
anthos-log-forwarder |
DaemonSet | 所有叢集 | Fluent Bit (https://docs.fluentbit.io/manual): 這個處理器會從各種元件提取記錄,並將記錄注入 Loki。收集各處的記錄,然後處理並轉送。並在所有叢集的每個節點上執行。 |
anthos-audit-logs-forwarder |
DaemonSet | 所有叢集 | Fluent Bit: 次要執行個體,用於載入較長存留時間的記錄,以供稽核。 |
audit-log-failure-detector |
DaemonSet | 所有叢集 | GDC 元件,可偵測並回報稽核記錄收集失敗情形。並在所有叢集的每個節點上執行。 |
logmon-operator |
部署作業 | 所有叢集 | 部署可觀測性堆疊元件的 GDC Logmon 運算子。 |
GDC 也會運用 GKE Enterprise 開發的自訂資源,設定記錄和監控功能。您可以透過這些自訂資源,設定 Prometheus 抓取目標和快訊規則、Alertmanager 設定、Grafana 資訊主頁和記錄抓取目標。