适用于 GKE on Azure 的健康检查

健康检查功能会定期监控集群控制平面和几个关键组件的健康状况,并帮助您检测集群的潜在问题。

如果您需要其他帮助,请与 Cloud Customer Care 联系。

检测到的问题

集群健康检查工具会检测集群中的以下问题并向您发出提醒:

  • kube-scheduler 在控制平面节点上的健康状况:如果 kube-scheduler 健康状况不佳,这表明集群无法将 Pod 分配给节点。如需进一步调查,您可以查看 kube-scheduler Pod 日志。

  • kube-controller-manager 在控制平面节点上的健康状况:kube-controller-manager 会监控各种控制器,例如 ReplicaSet、Deployment 和 Namespace 控制器等。如果 kube-controller-manager 被视为健康状况不佳,则表示其管理的一个或多个控制器可能无法正常运行。如需确定确切问题,您可以检查 kube-controller-manager Pod 日志,该日志可能会提供有关出现故障的控制器的详细信息。

  • 根卷容量:健康检查程序会检查每个控制平面节点的根卷上是否有足够的容量。如果可用容量低于 512MB,则健康检查程序会提醒您面临耗尽磁盘空间的潜在风险。

查看健康检查事件

如需查看健康检查程序发出的针对特定集群的提醒,请运行以下命令:

gcloud container azure clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

请替换以下内容:

  • CLUSTER_NAME:您的集群的名称
  • GOOGLE_CLOUD_LOCATION:管理集群的 Google Cloud 位置的名称

以下是您可能会看到的输出类型摘录:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

在此示例中,错误消息表示 kube-controller-manager 组件健康状况不佳,并且控制平面节点的根卷上的容量降低。

后续步骤

如果您需要其他帮助,请与 Cloud Customer Care 联系。