Logging 和 Monitoring 概览

本页面介绍 Anthos 不公开模式下可用的日志记录和监控选项。

Prometheus 和 Grafana

Prometheus 和 Grafana 是两种热门的开源监控产品:

  • Prometheus 会收集应用和系统指标。

  • Alertmanager 使用多种不同的提醒机制来发出提醒。

  • Grafana 是一种信息中心工具。

可在每个管理员集群和用户集群上启用 Prometheus 和 Grafana。

日志记录和监控的工作原理

创建新管理员集群或用户集群时,系统会在每个集群中安装日志记录和指标代理。这些组件包括:

  • LogMon 操作器 (logmon-Operator-):用于管理提供 LogMon API 的所有其他组件的生命周期。
  • Logging 代理 (anthos-log-forwarder-):一个 Fluent Bit Daemonset,用于将日志从每个集群的每个节点转发到日志存储。
  • 指标代理 (anthos-prometheus-k8s-):Prometheus 代理部署在每个集群中,以收集集群的指标。
  • 指标插件(node-exporter-、kube-state-metrics-):部署 Node ExporterKube State Metrics,以便在集群中提供有关节点本身或 Kubernetes 全局状态的更丰富的指标。
  • 指标存储:(anthos-prometheus-k8s-) 管理员集群中的 Prometheus 代理是管理员集群以及用户集群指标的集中指标存储,由永久性卷托管。
  • 日志存储:(loki-) 管理员集群中的 Loki 是由永久性卷托管的管理员集群和用户集群的中央日志存储。
  • 界面:(grafana-) Grafana 代理部署在管理员集群中,以直观呈现和查询日志和指标。
  • 提醒:(alertmanager-) Alertmanager 部署在管理员集群中,以配置和推送提醒通知。
  • 多集群监控:(pushprox-server-、pushprox-client-)将 pushprox 客户端部署在用户集群中,而 pushprox 服务器部署在管理员集群中以进行指标联合。

架构

下图展示了 Anthos 不公开模式下管理员集群和用户集群的架构。

管理员集群

管理员集群包含用于指标存储的 Prometheus、用于日志存储的 Loki、作为探索指标和日志的界面使用的 Grafana,以及用于进行提醒的 Alertmanager。

管理员集群架构

用户集群

用户集群中的指标由 Prometheus 收集并发送到管理员集群,用户集群中的日志通过 fluent-bit 收集并发送到管理员集群。

用户集群架构

后续步骤