診斷叢集問題

健康狀態檢查功能會定期監控叢集控制層和多個重要元件的健康狀態,協助您偵測及診斷叢集的潛在問題。

如需其他協助,請與 Cloud Customer Care 團隊聯絡。

偵測到問題

叢集健康狀態檢查工具會偵測叢集中的下列問題,並發出警報:

  • 控制層節點的 kube-scheduler 健康狀態:如果 kube-scheduler 狀態不佳,表示叢集無法將 Pod 指派給節點。如要進一步調查,可以檢查 kube-scheduler Pod 記錄。

  • 控制層節點的健康狀態kube-controller-manager 會監控各種控制器,例如 ReplicaSet、Deployment 和 Namespace 控制器等。kube-controller-manager如果 kube-controller-manager 判斷為不正常,表示其管理的一或多個控制器可能無法正常運作。如要判斷確切問題,可以檢查 kube-controller-manager Pod 記錄,其中可能提供有關故障控制器(或多個控制器) 的更多資訊。

  • 根磁碟區容量:健康狀態檢查程式會檢查每個控制層節點的根磁碟區是否有足夠容量。如果可用容量低於 512 MB,健康狀態檢查工具會發出警示,提醒您磁碟空間可能不足。

查看健康狀態檢查事件

如要查看特定叢集的健康狀態檢查程式發出的快訊,請執行下列指令:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

更改下列內容:

  • CLUSTER_NAME:叢集名稱
  • GOOGLE_CLOUD_LOCATION:管理叢集的 Google Cloud位置名稱

以下是預期輸出內容的摘錄:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

在本例中,錯誤訊息指出 kube-controller-manager 元件狀況不佳,且控制層節點根磁碟區的容量即將不足。

後續步驟

如需其他協助,請與 Cloud Customer Care 聯絡。