Questa pagina spiega come eseguire il debug dei problemi dei nodi su Google Distributed Cloud (solo software) per VMware usando una suite di strumenti di debug preinstallati.
Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud.Panoramica
Ogni cluster Google Distributed Cloud che crei è composto da diversi
nodi. Ogni nodo include una distribuzione
CoreOS toolbox
, una shell
script che decomprime ed esegue un container di debug, debug-toolbox
.
debug-toolbox
è un'immagine container che include diversi utili strumenti di debug.
Se riscontri problemi con un nodo specifico, puoi provare a eseguire il debug
connettendoti al nodo interessato, esegui lo script toolbox
per decomprimere ed eseguire
debug-toolbox
ed esegui gli strumenti inclusi nel container.
Strumenti inclusi nel contenitore debug-toolbox
Il container debug-toolbox
esegue un'immagine di base Debian che include
i seguenti pacchetti:
- bash
- curl
- dnsutils
- hping3
- iperf3
- lsof
- netcat
- mtr
- procp
- Strace
- tcpdump
- traceroute
- util-linux
Poiché questi strumenti sono inclusi nel container, non richiedono una connessione a internet
connessione. Se vuoi installare altri strumenti di debug, utilizzaapt-get
, che richiede una connessione a internet.
Uso: toolbox
Esegui il comando
toolbox
:sudo toolbox
Questo comando avvia un contenitore
debug-toolbox
.All'interno del contenitore, esegui uno degli strumenti. Ad esempio,
tcpdump
.Al termine, esci dal container e chiudi la connessione SSH nodo.
Rilevatore problemi nodo
Node Problem Detector, attivo per tutti i nodi di un cluster, consente di rilevare rapidamente alcuni problemi comuni dei nodi. Il rilevatore di problemi con i nodi continua a verificare la presenza di possibili
risolvere problemi e generare report come gli eventi e le condizioni sul nodo. Se un nodo si comporta in modo anomalo, puoi verificare se il rilevatore problemi nodo lo ha rilevato eseguendo kubectl describe
sul nodo e cercando gli eventi e le condizioni corrispondenti.
I monitor del rilevatore di problemi del nodo generano diverse condizioni sul nodo. Se
la condizione segnalata è KubeletUnhealthy
o ContainerRuntimeUnhealthy
, un
del servizio systemd
corrispondente (kubelet o Docker) potrebbe essere utile
per ripristinare l'integrità del nodo.
A partire da Google Distributed Cloud versione 1.5, kubelet e docker
La riparazione automatica dei servizi di sistema è abilitata nel rilevatore di problemi dei nodi. Se
Il rilevatore di problemi con il nodo rileva un KubeletUnhealthy
o
ContainerRuntimeUnhealthy
sul nodo, prova a riavviare
automaticamente kubelet o docker se la durata dall'ultimo riavvio è
al di sopra di una determinata soglia.