瞭解如何有效排解問題,確保 Google Kubernetes Engine (GKE) 上的服務順利運作。無論您是 Kubernetes 新手還是經驗豐富的使用者,都能學到有條理的方法,監控、診斷及解決常見問題。
運用下列工具和技巧,培養 GKE 疑難排解技能:
查看 Google Cloud 服務健康狀態和事件,瞭解可能影響叢集的持續性可靠度事件。
在 Google Cloud 控制台中評估叢集和工作負載的健康狀態,快速找出潛在問題。
如要查看節點和 Pod 等資源的即時狀態,請使用
kubectl
指令列工具調查叢集狀態。使用 Cloud Logging 進行歷史記錄分析,找出失敗的根本原因。
使用 Cloud Monitoring 執行主動監控,在問題影響使用者前解決。
運用 Gemini Cloud Assist 加快診斷速度:分析錯誤、取得逐步指引,並自動調查問題。
請按照疑難排解情境範例操作,瞭解如何搭配使用這些工具,診斷及解決實際應用程式故障問題。
瞭解核心概念
如果您是 Kubernetes 和 GKE 的新手,請務必先瞭解叢集架構、Pod 和節點之間的關係等核心概念,再開始排解問題。如要瞭解詳情,請參閱「開始瞭解 GKE」。
此外,瞭解您負責維護的 GKE 部分,以及 Google Cloud 負責維護的部分,也很有幫助。詳情請參閱「GKE 共同責任」。
後續步驟
請參閱查看 Google Cloud 服務健康狀態和事件(本系列文章的下一頁)。
如需解決特定問題的建議,請參閱 GKE 的疑難排解指南。
如果無法在說明文件中找到問題的解決方法,請參閱「取得支援」一文,尋求進一步的協助, 包括下列主題的建議:
- 與 Cloud 客戶服務聯絡,建立支援案件。
- 在 StackOverflow 上提問,並使用
google-kubernetes-engine
標記搜尋類似問題,向社群尋求支援。你也可以加入#kubernetes-engine
Slack 頻道,取得更多社群支援。 - 使用公開問題追蹤工具回報錯誤或提出功能要求。