オブザーバビリティの概要

オブザーバビリティとは、インフラストラクチャとサービスのステータスと健全性を確認するためのシステム モニタリング、ロギング、アラートなどの追跡情報を指します。Google Distributed Cloud(GDC)エアギャップ アプライアンスのオブザーバビリティ コンポーネントは、Grafana ダッシュボードに表示されるログと指標を収集します。これらのログと指標に対してクエリを実行して、運用上の問題を特定できます。

プラットフォーム管理者は、オブザーバビリティ プラットフォームを使用してシステム クラスタとユーザー クラスタをモニタリングし、Grafana ユーザー インターフェース(UI)でログと指標を可視化できます。アプリケーション オペレーターは、アプリケーションのログ、指標、イベントの形式でモニタリング データと運用データを収集できます。

オブザーバビリティ プラットフォームは、スタック コンポーネントを管理クラスタとユーザー クラスタにデプロイします。プラットフォーム管理者の Grafana インスタンスには、CPU 使用率やストレージ消費量などの組織レベルの指標と、GDC の管理クラスタ、システム クラスタ、ユーザー クラスタの操作可能なコンポーネントからのアラート、ログ、指標が含まれます。

Application Operators の Grafana インスタンスには、プロジェクトのデフォルトのダッシュボードやログは含まれていません。ダッシュボードを作成すると、プロジェクトの指標収集を有効にした場合にのみ表示されます。

プラットフォーム コンポーネント

GDC のモニタリング スタックとロギング スタックには、オブザーバビリティ プラットフォームの一部としてオープンソース サービスが含まれています。これらのサービスは、Kubernetes Pod、ベアメタル マシン、ネットワーク スイッチ、ストレージ アプライアンスからログを収集します。

各オブザーバビリティ コンポーネントの詳細については、次の表をご覧ください。

コンポーネント タイプ クラスタ 説明
anthos-prometheus-k8s StatefulSet システムのみ Prometheushttps://prometheus.io/docs/introduction/overview ):
指標の収集と保存、アラートの評価を行う時系列データベース。ラベルを Key-Value ペアとして追加し、Kubernetes ノード、Pod、ベアメタル マシン、ネットワーク スイッチ、ストレージ アプライアンスから指標を収集します。データベースは、ユーザー クラスタの指標を同じクラスタに保存し、すべてのクラスタの指標を管理クラスタに集約します。
grafana StatefulSet システムのみ Grafanahttps://grafana.com/docs/grafana/latest/):
指標とアラートのダッシュボードを可視化するためのユーザー インターフェース。Prometheus が収集した指標を表示し、Loki からログをクエリします。これにより、ユーザーは指標とアラートのダッシュボードを可視化できます。
alertmanager StatefulSet システムのみ Alertmanagerhttps://prometheus.io/docs/alerting/latest/alertmanager/):
ログまたは指標がシステム コンポーネントの障害または異常な動作を示している場合にアラートを送信する、ユーザー定義のマネージャー。Prometheus アラートのルーティング、サイレンシング、集約を管理します。
loki StatefulSet システムのみ Lokihttps://grafana.com/docs/loki/latest/):
さまざまなコンポーネントからログを保存し、すべてのクラスタからログを集計する時系列データベース。
audit-logs-loki StatefulSet システムのみ Loki:
監査目的に必要な長期ログを収集するセカンダリ インスタンス。すべてのクラスタからログを集約します。
anthos-log-forwarder DaemonSet すべてのクラスタ Fluent Bithttps://docs.fluentbit.io/manual):
さまざまなコンポーネントからログを取得して Loki に挿入するプロセッサ。さまざまな場所からログを収集し、処理して転送します。すべてのクラスタのすべてのノードで実行されます。
anthos-audit-logs-forwarder DaemonSet すべてのクラスタ Fluent Bit:
監査目的で長期間保存されるログを読み込むためのセカンダリ インスタンス。
audit-log-failure-detector DaemonSet すべてのクラスタ 監査ログの収集の失敗を検出して報告する GDC コンポーネント。すべてのクラスタのすべてのノードで実行されます。
logmon-operator デプロイ すべてのクラスタ オブザーバビリティ スタック コンポーネントをデプロイする GDC Logmon オペレータ。

GDC は、ロギングとモニタリングの構成用に GKE Enterprise が開発したカスタム リソースも活用します。これらのカスタム リソースを使用すると、Prometheus のスクレイピング ターゲットとアラートルール、Alertmanager 構成、Grafana ダッシュボード、ログのスクレイピング ターゲットを構成できます。