本页面介绍在断开连接模式下运行的 Anthos 中可用的日志记录和监控选项。
Prometheus 和 Grafana
Prometheus 和 Grafana 是两种热门的开源监控产品:
Prometheus 会收集应用和系统指标。
Alertmanager 使用多种不同的提醒机制来发出提醒。
Grafana 是一种信息中心工具。
可在每个管理员集群和用户集群上启用 Prometheus 和 Grafana。
日志记录和监控的工作原理
创建新管理员集群或用户集群时,系统会在每个集群中安装日志记录和指标代理。这些组件包括:
- LogMon 操作器 (logmon-Operator-):用于管理提供 LogMon API 的所有其他组件的生命周期。
- Logging 代理 (anthos-log-forwarder-):一个 Fluent Bit Daemonset,用于将日志从每个集群的每个节点转发到日志存储。
- 指标代理 (anthos-prometheus-k8s-):Prometheus 代理部署在每个集群中,以收集集群的指标。
- 指标插件(node-exporter-、kube-state-metrics-):部署 Node Exporter 和 Kube State Metrics,以便在集群中提供有关节点本身或 Kubernetes 全局状态的更丰富的指标。
- 指标存储:(anthos-prometheus-k8s-) 管理员集群中的 Prometheus 代理是管理员集群以及用户集群指标的集中指标存储,由永久性卷托管。
- 日志存储:(loki-) 管理员集群中的 Loki 是由永久性卷托管的管理员集群和用户集群的中央日志存储。
- 界面:(grafana-) Grafana 代理部署在管理员集群中,以直观呈现和查询日志和指标。
- 提醒:(alertmanager-) Alertmanager 部署在管理员集群中,以配置和推送提醒通知。
- 多集群监控:(pushprox-server-、pushprox-client-)将 pushprox 客户端部署在用户集群中,而 pushprox 服务器部署在管理员集群中以进行指标联合。
架构
下图展示了在断开连接模式下运行的 Anthos 中的管理员集群和用户集群的架构。
管理员集群
管理员集群包含用于指标存储的 Prometheus、用于日志存储的 Loki、作为探索指标和日志的界面使用的 Grafana,以及用于进行提醒的 Alertmanager。
用户集群
用户集群中的指标由 Prometheus 收集并发送到管理员集群,用户集群中的日志通过 fluent-bit 收集并发送到管理员集群。