本文档中介绍的产品 GKE on Azure 现已进入维护模式，并将于 2027 年 3 月 17 日关停。

诊断集群问题。

健康检查功能会定期监控集群控制平面和几个关键组件的健康状况，并帮助您检测和诊断集群的潜在问题。

如果您需要其他帮助，请与 Cloud Customer Care 联系。

检测到的问题

集群健康检查工具会检测集群中的以下问题并向您发出提醒：

kube-scheduler 在控制平面节点上的健康状况：如果 kube-scheduler 健康状况不佳，这表明集群无法将 Pod 分配给节点。如需进一步调查，您可以查看 kube-scheduler Pod 日志。
kube-controller-manager 在控制平面节点上的健康状况：kube-controller-manager 会监控各种控制器，例如 ReplicaSet、Deployment 和 Namespace 控制器等。如果 kube-controller-manager 被视为健康状况不佳，则表示其管理的一个或多个控制器可能无法正常运行。如需确定确切问题，您可以检查 kube-controller-manager Pod 日志，该日志可能会提供有关出现故障的控制器的详细信息。
根卷容量：健康检查程序会检查每个控制平面节点的根卷上是否有足够的容量。如果可用容量低于 512MB，则健康检查程序会提醒您面临耗尽磁盘空间的潜在风险。

查看健康检查事件

如需查看健康检查程序发出的针对特定集群的提醒，请运行以下命令：

gcloud container azure clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

请替换以下内容：

CLUSTER_NAME：您的集群的名称
GOOGLE_CLOUD_LOCATION：管理集群的 Google Cloud位置的名称

以下是您可能会看到的输出类型摘录：

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

在此示例中，错误消息表示 kube-controller-manager 组件健康状况不佳，并且控制平面节点的根卷上的容量降低。

后续步骤

如果您需要其他帮助，请与 Cloud Customer Care 联系。