當 Google Kubernetes Engine (GKE) 叢集或應用程式發生問題時,請務必迅速判斷原因是否為內部問題,或是與更廣泛的Google Cloud 服務中斷有關。如果根本原因是已知的平台事件,花時間在本機進行偵錯效率不彰。
如果 GKE 叢集發生問題,請參閱本頁內容,判斷是否為 Google Cloud 服務中斷所致。如要瞭解如何從下列來源取得官方狀態更新、個人健康事件和服務事件深入分析資訊,請參閱:
- Google Cloud 服務健康狀態:各區域的服務狀態資訊。 Google Cloud
- Personalized Service Health:與專案相關的服務中斷情形。
- 服務事件深入分析和建議:受進行中服務事件影響的 GKE 叢集。
平台管理員和營運人員以及應用程式開發人員在進行疑難排解時,需要瞭解觀察到的問題是否與更廣泛的 Google Cloud 服務健康狀態事件有關,因此這項資訊非常重要。如要進一步瞭解Google Cloud 內容中提及的常見角色和範例工作,請參閱「常見的 GKE 使用者角色和工作」。
查看 Google Cloud 服務健康狀態
「Google Cloud 服務健康狀態」頁面提供「 Google Cloud」服務的狀態資訊。
如要查看與 GKE 相關的事件,請前往「Google Cloud Service Health」(服務健康狀態) 頁面。
查看 Google Kubernetes Engine 的所有回報事件
查看 Personalized Service Health
Personalized Service Health 可協助找出與專案相關的Google Cloud 服務中斷情形。這些中斷情形稱為「服務健康狀態事件」,相關資訊會顯示在 Google Cloud 控制台和各個整合點。
如要查看與專案相關的 GKE 事件,請在 Google Cloud 控制台的 Personalized Service Health 資訊主頁中,查看服務健康狀態事件。
前往 Personalized Service Health
您可以依服務、地點、關聯性和狀態篩選事件。資訊主頁也會提供事件詳細資料,例如影響範圍、徵狀、解決方法和解決進度更新。如要開始使用,請參閱「快速入門導覽課程:在Google Cloud 控制台中查看服務健康狀態事件」。
查看服務事件深入分析和建議
服務事件洞察和建議可協助您找出受進行中服務事件影響的 GKE 叢集。
如要取得服務事件深入分析資料,請查看 GKE_RELIABILITY_INCIDENT
子類型的深入分析資料和建議。您可以透過 Google Cloud 控制台、Google Cloud CLI 或 Recommender API 取得深入分析結果。詳情請參閱「查看洞察資料和建議」。
深入分析和建議包含下列資訊:
- 受影響的叢集:受事件影響的叢集。
- 事件名稱:與 Cloud 客服團隊聯絡時,可參考的事件 ID。
- 事件說明:事件應變團隊提供的事件資訊。
- 上次生效時間:上次更新事件資訊的時間。
- 緩解措施:事件應變團隊建議的緩解措施 (如有)。
服務事件洞察資訊會持續顯示,直到 Google Cloud 事件回應團隊解決事件,並判斷洞察資訊不再相關為止。事件解決後,系統不會立即移除洞察資訊,而是會過一段時間才移除。如果您已採用解決方法,且不想再看到洞察資訊,可以關閉這項資訊。
後續步驟
請參閱在 Google Cloud 控制台中評估叢集和工作負載健康狀態 (本系列文章的下一頁)。
如需解決特定問題的建議,請參閱 GKE 的疑難排解指南。
如果無法在說明文件中找到問題的解決方法,請參閱「取得支援」一文,尋求進一步的協助, 包括下列主題的建議:
- 與 Cloud 客戶服務聯絡,建立支援案件。
- 在 StackOverflow 上提問,並使用
google-kubernetes-engine
標記搜尋類似問題,向社群尋求支援。你也可以加入#kubernetes-engine
Slack 頻道,取得更多社群支援。 - 使用公開問題追蹤工具回報錯誤或提出功能要求。