本页面介绍如何查看 Google Kubernetes Engine (GKE) 集群和工作负载的基础架构健康指标。这些指标有助于排查 GKE 集群和工作负载的问题。
使用要求
- 您必须在集群上启用系统指标,才能使用可观测性标签页中的概况指标。系统指标在 Autopilot 集群中始终处于启用状态,在 Standard 集群中默认处于启用状态。
- 必须在集群上启用控制层面指标,才能使用可观测性标签页中的控制层面指标。如果您在集群的可观测性标签页上选择控制平面,但指标未启用,则会看到指标未启用的通知。您可以点击启用软件包来启用它们。如需了解启用控制层面指标的其他方法,请参阅配置控制层面指标集合。
可观测性指标
在 Google Cloud 控制台中的可观测性标签页中,您可以查看集群和工作负载的性能指标。
对于 Google Kubernetes Engine (GKE) 企业版,图表会显示舰队中的所有集群。
集群和工作负载的指标
以下指标适用于集群和工作负载:
- 概览:显示基础架构健康的摘要指标,例如 CPU 和内存请求利用率、错误日志和警告事件。
- CPU:显示 CPU 和核心请求利用率。
- 内存:显示内存请求利用率。
集群可使用以下指标:
- Kubernetes 事件:可帮助您了解一段时间内的事件计数和详细的事件日志。
- 控制平面:可帮助您了解 Kubernetes 控制平面组件(例如 kube-apiserver 和 scheduler)的健康状况。另外还提供了无法安排的 Pod 数量等信息。对于处于不可调度状态的 Pod,系统已尝试对其进行调度并已被确定为不可调度。若 Pod 处于此状态,则表明集群中未发生可使其转换为可调度状态的任何变更。
- Cloud Ops 注入:可帮助您了解与费用相关的日志记录和指标注入量。如需了解详情,请参阅 Google Cloud 的运维套件价格。
- 临时(在所选集群的可观测性标签页上可用):帮助您了解集群使用的临时存储空间,以便您可以确定集群的存储空间是否正得到高效使用。在可观测性标签页概览页面上有一个图表,它显示了集群使用的临时存储空间,临时页面显示了其他指标,包括容量、吞吐量、I/O 操作速率等。其中一些指标不适用于 Autopilot 集群。
- 永久性:可帮助您了解永久性卷和永久性卷声明。
- 工作负载状态:可帮助您了解以下资源类型:Pod、Deployment、StatefulSet、DaemonSet 和 Pod 横向自动扩缩器。
解读可观测性指标
指标可帮助您排查 GKE 集群的问题,例如:
- CPU 或内存请求利用率趋势走高可能表示您应该将集群或命名空间中的容器配置为使用较少的资源。
- 容器重启次数过多可能表示容器有崩溃风险。
- 大量无法安排的 Pod 则表示资源不足或配置错误。
- 较高的 Cloud Logging 或 Google Cloud Managed Service for Prometheus 注入量与 Google Cloud 的运维套件费用相关。您可以通过减少注入量来节省费用。如需详细了解 Google Cloud Managed Service for Prometheus,请参阅费用控制和归因。如需详细了解日志记录,请参阅排除项过滤条件。
查看集群和工作负载可观测性指标
如需查看集群或工作负载的可观测性指标,请在 Google Cloud 控制台中执行以下步骤:
转到 Kubernetes 集群或 Kubernetes 工作负载页面:
选择可观测性标签页。
选择要查看哪段时间范围内的指标。在图表内部拖动鼠标即可选择特定时间范围。点击重置缩放级别可返回之前选择的范围。
如需查看所选集群或工作负载的可观测性指标,请在 Google Cloud 控制台中执行以下步骤:
转到 Kubernetes 集群或 Kubernetes 工作负载页面:
点击集群或工作负载的名称。
选择可观测性标签页。
选择要查看哪段时间范围内的指标。在图表内部拖动鼠标即可选择特定时间范围。点击重置缩放级别可返回之前选择的范围。
通过所选视图创建自定义信息中心
如需将可见图表添加到 Cloud Monitoring 中的自定义信息中心,请在 Google Cloud 控制台中执行以下步骤:
转到 Kubernetes 集群或 Kubernetes 工作负载页面:
选择可观测性标签页。
(可选)选择数据的过滤条件。
点击另存为自定义信息中心。
指定新信息中心的名称。
点击提交以创建新信息中心。
点击在 Monitoring 中查看以查看该信息中心。
在 Cloud Monitoring 中查看 GKE 信息中心
Monitoring 为 GKE 和其他 Google Cloud 服务提供了额外的信息中心。您可以使用提供的信息中心,也可以创建信息中心的副本,以便根据需要进行自定义。
信息中心列表还包含可用于排查常见问题的 GKE playbook。
-
在 Google Cloud 控制台中,选择 Monitoring,然后选择 信息中心,或点击以下按钮:
在“类别”列表中,选择 GCP。
选择要查看的信息中心或 playbook。
- GKE 信息中心简要介绍了您可以过滤的集群、工作负载、服务和其他资源。您可以点击资源以查看指标和日志详细信息。对于命名空间、工作负载和 Kubernetes 服务,您还可以从详细信息视图查看和创建服务等级目标 (SLO)。
- 其他 GKE 信息中心和 playbook 侧重于特定资源或条件,例如存在风险的工作负载。