排解 GKE 問題


本頁列出常見問題的疑難排解頁面,協助您解決使用 Google Kubernetes Engine (GKE) 時可能遇到的問題。本頁內容適用於排解 GKE 設定問題的管理員、架構師、安全專家、網路專家或儲存空間專家。如要進一步瞭解 GKE 角色,請參閱「常見的 GKE 使用者角色和工作」。

如果您不熟悉 GKE 疑難排解,或想瞭解基本工具和技術的大致情況,請先參閱疑難排解簡介

如要診斷及解決使用 GKE 基礎架構時遇到的問題,請參閱下列各節:

本頁面也提供更一般的疑難排解主題:

如要排解 GKE 網路問題,請參閱 GKE 網路說明文件中的「排解 GKE 網路問題」。

疑難排解簡介

主題 說明
GKE 疑難排解簡介 瞭解整體程序和基本概念,開始排解 GKE 問題。
查看服務健康狀態和事件 瞭解如何檢查 GKE 和相關服務的健康狀態,排除平台問題。 Google Cloud
在 Google Cloud 控制台中評估叢集和工作負載的健康狀態 瞭解如何使用 Google Cloud 控制台調查及解決 GKE 問題。
使用 kubectl 檢查叢集狀態 瞭解常見的 kubectl 指令和技巧,診斷叢集和工作負載的問題。
使用 Cloud Logging 進行歷史資料分析 瞭解如何有效使用 Cloud Logging,找出 GKE 問題的根本原因。
使用 Cloud Monitoring 執行主動監控 使用 Cloud Monitoring 資訊主頁和指標,找出、診斷及解決 GKE 問題。
運用 Gemini Cloud Assist 加快診斷速度 瞭解 Gemini 如何協助診斷及解決 GKE 問題。
學以致用:疑難排解情境範例 請參閱 GKE 中的逐步範例,瞭解如何排解常見情境的問題。

叢集設定

主題 說明
建立叢集 解決建立叢集的問題。
Autopilot 叢集 診斷及排解 GKE Autopilot 叢集問題,包括叢集建立、命名空間刪除、資源調度和工作負載問題。
Kubectl 指令列工具 排解 GKE 中的 kubectl 指令列工具問題,包括驗證和授權問題。本頁面也提供Konnectivity Proxy 的疑難排解建議,可檢查是否為導致 kubectl logsattachexecport-forward 指令停止回應的原因。
標準節點集區 排解 GKE Standard 節點集區的問題,包括節點集區建立、盡力佈建、執行個體中繼資料損毀,以及將工作負載遷移至新節點集區等問題。
節點註冊 排解將節點新增至 GKE Standard 叢集時發生的問題,例如節點註冊失敗,以及成功註冊節點的必要條件未達標。
容器執行階段 排解 GKE 中的容器執行階段問題,包括 containerddockershim 的問題,以及私人登錄檔。

儲存空間

主題 說明
儲存空間 排解儲存空間問題,包括地區永久磁碟、磁碟效能和磁碟區擴充問題。

叢集安全性

主題 說明
驗證 排解 GKE 中的驗證問題,包括 RBAC、Workload Identity Federation for GKE 和 GKE 中繼資料伺服器的問題。
服務帳戶 排解服務帳戶問題,包括還原預設服務帳戶,以及啟用 Compute Engine 預設服務帳戶。
應用程式層密鑰 排解設定應用程式層級密鑰加密時可能發生的問題,包括更新失敗和錯誤,例如 無法使用 Cloud KMS 金鑰,或 Cloud KMS 金鑰版本已銷毀

叢集的根憑證授權單位即將到期

主題 說明
根憑證授權單位 (CA) 即將到期 如果叢集的根憑證授權單位 (CA) 即將到期,請瞭解如何執行憑證輪替,以免叢集正常運作受到影響。

工作負載

主題 說明
已部署的工作負載 排解 GKE 叢集中執行工作負載時發生的錯誤,包括 PodUnschedulable。請參閱「PodUnschedulable」一節,瞭解如何解決 MatchNodeSelectorDoes not have minimum availability 等錯誤。
圖片擷取 排解映像檔提取問題。瞭解導致 ImagePullBackOffErrImagePull 等狀態的原因,以及如何修正驗證和網路連線等常見問題,解決這些狀態。
CrashLoopBackOff 事件 排解 GKE 中的 CrashLoopBackOff 事件。診斷資源耗盡、應用程式設定錯誤和存活探查失敗等問題。
OOM 事件 排解 Kubernetes 記憶體不足 (OOM) 事件。找出原因、區分事件類型,並針對容器和節點層級的 OOM 終止作業套用有效解決方案。
Arm 工作負載 排解 Arm 工作負載問題,包括 Arm 節點上的 Pod 損毀。
TPU 排解 TPU 問題,包括配額、節點自動佈建、工作負載設定和排程等問題。
GPU 排解 GPU 問題,包括 GPU 驅動程式安裝問題、裝置外掛程式錯誤和容器映像檔。

叢集管理

主題 說明
叢集升級 排解並解決 GKE 叢集和節點升級問題,包括升級時間過長或未完成、發生非預期的自動升級、升級失敗,以及升級後的問題。
Webhook 瞭解如何排解問題,並確保使用許可控制器時叢集控制層的穩定性。
命名空間停滯在 Terminating 狀態 如要排解命名空間卡在「Terminating」狀態的問題,請找出並移除導致刪除作業受阻的不良元件。
並行作業 瞭解如何找出並解決這類錯誤,等待作業完成,即可排解並行作業問題。

監控

主題 說明
系統指標 排解系統指標未顯示在 Cloud Monitoring 中的問題。
監控資訊主頁 排解監控資訊主頁問題,包括啟用監控功能、缺少 Kubernetes 資源和權限等問題。
Logging 排解記錄問題,包括啟用記錄、缺少記錄和配額等問題。

4xx 錯誤

主題 說明
4xx 錯誤 排解使用 GKE 時可能遇到的部分 400、401、403 和 404 錯誤。本頁面也提供相關資訊,說明如何排解帳戶缺少編輯權限的錯誤

已知問題

主題 說明
已知問題 找出並解決可能影響 GKE 使用體驗的已知問題。

後續步驟