本頁面由 Cloud Translation API 翻譯而成。

排解 GKE 問題

自動駕駛標準

本頁列出常見問題的疑難排解頁面，協助您解決使用 Google Kubernetes Engine (GKE) 時可能遇到的問題。本頁內容適用於排解 GKE 設定問題的管理員、架構師、安全專家、網路專家或儲存空間專家。如要進一步瞭解 GKE 角色，請參閱「常見的 GKE 使用者角色和工作」。

如果您不熟悉 GKE 疑難排解，或想瞭解基本工具和技術的大致情況，請先參閱疑難排解簡介。

如要診斷及解決使用 GKE 基礎架構時遇到的問題，請參閱下列各節：

本頁面也提供更一般的疑難排解主題：

如要排解 GKE 網路問題，請參閱 GKE 網路說明文件中的「排解 GKE 網路問題」。

疑難排解簡介

主題	說明
GKE 疑難排解簡介	瞭解整體程序和基本概念，開始排解 GKE 問題。
查看服務健康狀態和事件	瞭解如何檢查 GKE 和相關服務的健康狀態，排除平台問題。 Google Cloud
在 Google Cloud 控制台中評估叢集和工作負載的健康狀態	瞭解如何使用 Google Cloud 控制台調查及解決 GKE 問題。
使用 `kubectl` 檢查叢集狀態	瞭解常見的 `kubectl` 指令和技巧，診斷叢集和工作負載的問題。
使用 Cloud Logging 進行歷史資料分析	瞭解如何有效使用 Cloud Logging，找出 GKE 問題的根本原因。
使用 Cloud Monitoring 執行主動監控	使用 Cloud Monitoring 資訊主頁和指標，找出、診斷及解決 GKE 問題。
運用 Gemini Cloud Assist 加快診斷速度	瞭解 Gemini 如何協助診斷及解決 GKE 問題。
學以致用：疑難排解情境範例	請參閱 GKE 中的逐步範例，瞭解如何排解常見情境的問題。

主題	說明
建立叢集	解決建立叢集的問題。
Autopilot 叢集	診斷及排解 GKE Autopilot 叢集問題，包括叢集建立、命名空間刪除、資源調度和工作負載問題。
Kubectl 指令列工具	排解 GKE 中的 `kubectl` 指令列工具問題，包括驗證和授權問題。本頁面也提供Konnectivity Proxy 的疑難排解建議，可檢查是否為導致 `kubectl logs`、`attach`、`exec` 或 `port-forward` 指令停止回應的原因。
標準節點集區	排解 GKE Standard 節點集區的問題，包括節點集區建立、盡力佈建、執行個體中繼資料損毀，以及將工作負載遷移至新節點集區等問題。
節點註冊	排解將節點新增至 GKE Standard 叢集時發生的問題，例如節點註冊失敗，以及成功註冊節點的必要條件不足。
容器執行階段	排解 GKE 中的容器執行階段問題，包括 `containerd` 和 `dockershim` 的問題，以及私人登錄檔。

主題	說明
叢集自動調度器未縮減資源	診斷並解決叢集未移除未充分利用節點的常見原因。瞭解如何檢查限制性 `PodDisruptionBudgets`、具有本機儲存空間的 Pod，或特定註解 (例如 `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) 等問題，以免節點遭到驅逐。
叢集自動配置器未向上擴充	瞭解叢集自動配置器為何無法新增節點來滿足需求。檢查是否有無法排程的 Pod、確認叢集或節點集區大小未達上限，並找出潛在的資源配額或區域 VM 可用性問題。
水平自動調度 Pod 資源	排解水平 Pod 自動配置器無法調度應用程式 Pod 副本的問題。解決常見問題，例如 HorizontalPodAutoscaler 物件設定錯誤，或指標管道發生問題。

主題	說明
儲存空間	排解儲存空間問題，包括地區永久磁碟、磁碟效能和磁碟區擴充問題。

主題	說明
驗證	排解 GKE 中的驗證問題，包括 RBAC、Workload Identity Federation for GKE 和 GKE 中繼資料伺服器的問題。
服務帳戶	排解服務帳戶問題，包括還原預設服務帳戶，以及啟用 Compute Engine 預設服務帳戶。
應用程式層密鑰	排解設定應用程式層級密文加密時可能發生的問題，包括更新失敗和錯誤，例如無法使用 Cloud KMS 金鑰，或 Cloud KMS 金鑰版本已銷毀。

主題	說明
根憑證授權單位 (CA) 即將到期	如果叢集的根憑證授權單位 (CA) 即將到期，請瞭解如何執行憑證輪替，以免叢集正常運作受到影響。

主題	說明
已部署的工作負載	排解 GKE 叢集中執行工作負載時發生的錯誤，包括 `PodUnschedulable`。請參閱「PodUnschedulable」一節，瞭解如何解決 `MatchNodeSelector` 和 `Does not have minimum availability` 等錯誤。
圖片擷取	排解映像檔提取問題。瞭解導致狀態顯示為 `ImagePullBackOff` 和 `ErrImagePull` 的原因，以及如何修正驗證和網路連線等常見問題，解決這些狀態。
CrashLoopBackOff 事件	排解 GKE 中的 `CrashLoopBackOff` 事件。診斷資源耗盡、應用程式設定錯誤和存活探查失敗等問題。
OOM 事件	排解 Kubernetes 記憶體不足 (OOM) 事件。找出原因、區分事件類型，並針對容器和節點層級的 OOM 終止作業套用有效解決方案。
Arm 工作負載	排解 Arm 工作負載問題，包括 Arm 節點上的 Pod 損毀。
TPU	排解 TPU 問題，包括配額、節點自動佈建、工作負載設定和排程等問題。
GPU	排解 GPU 問題，包括 GPU 驅動程式安裝問題、裝置外掛程式錯誤和容器映像檔。

主題	說明
叢集升級	排解並解決 GKE 叢集和節點升級問題，包括升級時間過長或未完成、發生非預期的自動升級、升級失敗，以及升級後的問題。
Webhook	瞭解如何排解問題，並確保使用許可控制器時叢集控制層的穩定性。
命名空間停滯在 `Terminating` 狀態	如要排解命名空間卡在 `Terminating` 狀態的問題，請找出並移除導致刪除作業受阻的不良元件。
並行作業	瞭解如何找出並解決這類錯誤，等待作業完成，即可排解並行作業問題。

主題	說明
系統指標	排解系統指標未顯示在 Cloud Monitoring 中的問題。
監控資訊主頁	排解監控資訊主頁問題，包括啟用監控功能、缺少 Kubernetes 資源和權限等問題。
Logging	排解記錄問題，包括啟用記錄、缺少記錄和配額等問題。

主題	說明
4xx 錯誤	排解使用 GKE 時可能遇到的部分 400、401、403 和 404 錯誤。本頁面也提供相關資訊，說明如何排解帳戶缺少編輯權限的錯誤。

主題	說明
已知問題	找出並解決可能影響 GKE 使用體驗的已知問題。

如果無法在說明文件中找到問題的解決方法，請參閱「取得支援」一文，尋求進一步的協助，包括下列主題的建議：
- 與 Cloud 客戶服務聯絡，建立支援案件。
- 在 StackOverflow 上提問，並使用 google-kubernetes-engine 標記搜尋類似問題，向社群尋求支援。你也可以加入 #kubernetes-engine Slack 頻道，取得更多社群支援。
- 使用公開版 Issue Tracker 開啟錯誤或功能要求。