健康检查功能会定期监控集群控制平面和几个关键组件的健康状况,并帮助您检测和诊断集群的潜在问题。
如果您需要其他帮助,请与 Cloud Customer Care 联系。检测到的问题
集群健康检查工具会检测集群中的以下问题并向您发出提醒:
kube-scheduler
在控制平面节点上的健康状况:如果kube-scheduler
健康状况不佳,这表明集群无法将 Pod 分配给节点。如需进一步调查,您可以查看kube-scheduler
Pod 日志。kube-controller-manager
在控制平面节点上的健康状况:kube-controller-manager
会监控各种控制器,例如 ReplicaSet、Deployment 和 Namespace 控制器等。如果kube-controller-manager
被视为健康状况不佳,则表示其管理的一个或多个控制器可能无法正常运行。如需确定确切问题,您可以检查kube-controller-manager
Pod 日志,该日志可能会提供有关出现故障的控制器的详细信息。根卷容量:健康检查程序会检查每个控制平面节点的根卷上是否有足够的容量。如果可用容量低于 512MB,则健康检查程序会提醒您面临耗尽磁盘空间的潜在风险。
查看健康检查事件
如需查看健康检查程序发出的针对特定集群的提醒,请运行以下命令:
gcloud container aws clusters describe CLUSTER_NAME \
--location GOOGLE_CLOUD_LOCATION
请替换以下内容:
CLUSTER_NAME
:您的集群的名称GOOGLE_CLOUD_LOCATION
:管理集群的 Google Cloud 位置的名称
下面摘录自您可以预期的输出类型:
{ "name": "some-cluster-name", "description": "test-cluster", ... "errors": [ { "message": "Replica (replica-name)": kube-controller-manager is unhealthy" }, { "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left" } ] ... }
在此示例中,错误消息表示 kube-controller-manager
组件健康状况不佳,并且控制平面节点的根卷上的容量降低。