本頁說明如何使用預先安裝的偵錯工具套件,在 VMware 適用的 Google Distributed Cloud (僅限軟體) 上偵錯節點問題。
總覽
您建立的每個 Google Distributed Cloud 叢集都由多個節點組成。每個節點都包含 CoreOS 的 toolbox
分發版本,以及解壓縮並執行偵錯容器的殼層指令碼 debug-toolbox
。debug-toolbox
容器映像檔內含多種實用的偵錯工具。
如果特定節點發生問題,您可以連線至受影響的節點,然後執行 toolbox
指令碼來解壓縮及執行 debug-toolbox
容器,並執行容器中包含的工具,嘗試進行偵錯。
debug-toolbox
容器中包含的工具
debug-toolbox
容器會執行 Debian 基本映像檔,其中包含下列套件:
- bash
- curl
- dnsutils
- hping3
- iperf3
- lsof
- netcat
- mtr
- procps
- strace
- tcpdump
- traceroute
- util-linux
由於這些工具已納入容器,因此不需要網際網路連線。如要安裝其他偵錯工具,請使用 apt-get
,但必須連上網際網路。
正在使用 toolbox
執行
toolbox
指令:sudo toolbox
這個指令會啟動
debug-toolbox
容器。在容器內執行其中一個工具。例如:
tcpdump
。完成後,請退出容器並關閉節點的 SSH 連線。
節點問題偵測工具
節點問題偵測器會為叢集中的所有節點啟用,有助於快速偵測一些常見的節點問題。節點問題偵測工具會持續檢查可能的問題,並以節點上的事件和狀況回報問題。如果節點運作異常,您可以對節點執行 kubectl describe
,並尋找對應的事件和狀況,確認節點問題偵測工具是否偵測到問題。
節點問題偵測工具監控器會在節點上產生多種情況。如果回報的狀況為 KubeletUnhealthy
或 ContainerRuntimeUnhealthy
,重新啟動對應的 systemd
服務 (kubelet 或 Docker) 可能有助於讓節點恢復正常。
從 Google Distributed Cloud 1.5 版開始,Node Problem Detector 會啟用 kubelet 和 Docker systemd 服務自動修復功能。如果節點問題偵測器在節點上偵測到 KubeletUnhealthy
或 ContainerRuntimeUnhealthy
狀況,且自上次重新啟動以來的時間超過特定門檻,就會嘗試自動重新啟動 kubelet 或 Docker 服務。
後續步驟
如需其他協助,請與 Cloud Customer Care 團隊聯絡。
如要進一步瞭解支援資源,包括下列項目,請參閱「取得支援」: