可观测性概览

可观测性是指系统监控、日志记录、提醒和其他跟踪信息,用于查看基础架构和服务的状态和运行状况。Google Distributed Cloud (GDC) 网闸隔离设备的观测性组件会收集日志和指标,这些日志和指标会显示在 Grafana 信息中心内,您可以查询这些日志和指标来发现运营问题。

平台管理员可以使用可观测性平台监控系统和用户集群,并在 Grafana 界面 (UI) 中直观呈现日志和指标。应用运营商可以收集应用的相关监控和运营数据,包括日志、指标和事件。

可观测性平台会在管理员集群和用户集群中部署其堆栈组件。平台管理员的 Grafana 实例包含组织级指标(例如 CPU 利用率和存储空间消耗量),以及 GDC 中管理员集群、系统集群和用户集群的可操作组件的提醒、日志和指标。

应用运维人员的 Grafana 实例不包含项目的任何默认信息中心或日志。创建信息中心后,只有在为项目启用指标收集功能时,才能看到这些信息中心。

平台组件

GDC 监控和日志记录堆栈包含作为可观测性平台一部分的开源服务。这些服务会从 Kubernetes Pod、裸机、网络交换机和存储设备收集日志。

请查看下表,详细了解各个可观测性组件。

组件 类型 集群 说明
anthos-prometheus-k8s StatefulSet 仅限系统 Prometheus (https://prometheus.io/docs/introduction/overview ):
一种用于收集和存储指标以及评估提醒的时序数据库。它以键值对的形式添加标签,并从 Kubernetes 节点、Pod、裸机、网络交换机和存储设备收集指标。该数据库存储同一集群中用户集群的指标,并汇总管理员集群中所有集群的指标。
grafana StatefulSet 仅限系统 Grafana (https://grafana.com/docs/grafana/latest/):
用于直观呈现指标和提醒信息中心的用户界面。查看 Prometheus 收集的指标,并查询来自 Loki 的日志。它允许用户直观呈现指标和提醒的信息中心。
alertmanager StatefulSet 仅限系统 Alertmanager (https://prometheus.io/docs/alerting/latest/alertmanager/):
一种用户定义的管理器,当日志或指标表明系统组件出现故障或无法正常运行时,该管理器会发送提醒。它负责管理 Prometheus 提醒的路由、静音和聚合。
loki StatefulSet 仅限系统 Loki (https://grafana.com/docs/loki/latest/):
一种用于存储来自各种组件的日志并汇总所有集群的日志的时序数据库。
audit-logs-loki StatefulSet 仅限系统 Loki
用于收集长期日志的辅助实例,这些日志对于审核目的而言是必需的。它会汇总所有集群的日志。
anthos-log-forwarder DaemonSet 所有集群 Fluent Bit (https://docs.fluentbit.io/manual):
一种从各种组件提取日志并将其注入 Loki 的处理器。它从各个位置收集日志,然后处理并转发这些日志。它在所有集群的每个节点上运行。
anthos-audit-logs-forwarder DaemonSet 所有集群 Fluent Bit
用于加载生命周期较长的日志以进行审核的辅助实例。
audit-log-failure-detector DaemonSet 所有集群 一种用于检测和报告审核日志收集失败情况的 GDC 组件。它在所有集群的每个节点上运行。
logmon-operator 部署 所有集群 用于部署可观测性堆栈组件的 GDC Logmon 运算符。

GDC 还利用 GKE Enterprise 开发的自定义资源来配置日志记录和监控。借助这些自定义资源,您可以配置 Prometheus 抓取目标和提醒规则、Alertmanager 配置、Grafana 信息中心以及日志抓取目标。