瞭解如何有效排解問題,確保 Google Kubernetes Engine (GKE) 上的服務順利運作。無論您是 Kubernetes 新手還是經驗豐富的使用者,都能學到有條理的方法,監控、診斷及解決常見問題。
運用下列工具和技巧,培養 GKE 疑難排解技能:
- 查看 Google Cloud 服務健康狀態和事件,瞭解可能影響叢集的持續性可靠度事件。 
- 在 Google Cloud 控制台中評估叢集和工作負載的健康狀態,快速找出潛在問題。 
- 如要查看節點和 Pod 等資源的即時狀態,請使用 - kubectl指令列工具調查叢集狀態。
- 使用 Cloud Logging 進行歷史記錄分析,找出失敗的根本原因。 
- 使用 Cloud Monitoring 執行主動監控,在問題影響使用者前解決。 
- 運用 Gemini Cloud Assist 加速診斷:分析錯誤、取得逐步指引,並自動調查問題。 
- 請按照疑難排解情境範例操作,瞭解如何診斷及解決實際應用程式故障問題,進而掌握這些工具的搭配使用方式。 
瞭解核心概念
如果您是 Kubernetes 和 GKE 的新手,請務必先瞭解叢集架構、Pod 和節點之間的關係等核心概念,再開始排解問題。如要瞭解詳情,請參閱「開始瞭解 GKE」。
此外,瞭解您負責維護的 GKE 部分,以及 Google Cloud 負責維護的部分,也很有幫助。詳情請參閱「GKE 共同責任」。
後續步驟
- 請參閱查看 Google Cloud 服務健康狀態和事件(本系列文章的下一頁)。 
- 如需解決特定問題的建議,請參閱 GKE 的疑難排解指南。 
- 如果無法在說明文件中找到問題的解決方法,請參閱「取得支援」一文,尋求進一步的協助, 包括下列主題的建議: - 與 Cloud 客戶服務聯絡,建立支援案件。
- 在 StackOverflow 上提問,並使用 google-kubernetes-engine標記搜尋類似問題,向社群尋求支援。你也可以加入#kubernetes-engineSlack 頻道,取得更多社群支援。
- 使用公開版 Issue Tracker 開啟錯誤或功能要求。