Debug dei problemi relativi ai nodi

Questa pagina spiega come eseguire il debug dei problemi dei nodi su Google Distributed Cloud (solo software) per VMware usando una suite di strumenti di debug preinstallati.

Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud.

Panoramica

Ogni cluster Google Distributed Cloud che crei è composto da diversi nodi. Ogni nodo include una distribuzione CoreOS toolbox, una shell script che decomprime ed esegue un container di debug, debug-toolbox. debug-toolbox è un'immagine container che include diversi utili strumenti di debug.

Se riscontri problemi con un nodo specifico, puoi provare a eseguire il debug connettendoti al nodo interessato, esegui lo script toolbox per decomprimere ed eseguire debug-toolbox ed esegui gli strumenti inclusi nel container.

Strumenti inclusi nel contenitore debug-toolbox

Il container debug-toolbox esegue un'immagine di base Debian che include i seguenti pacchetti:

  • bash
  • curl
  • dnsutils
  • hping3
  • iperf3
  • lsof
  • netcat
  • mtr
  • procp
  • Strace
  • tcpdump
  • traceroute
  • util-linux

Poiché questi strumenti sono inclusi nel container, non richiedono una connessione a internet connessione. Se vuoi installare altri strumenti di debug, utilizzaapt-get, che richiede una connessione a internet.

Uso: toolbox

  1. Accedi tramite SSH al nodo del cluster.

  2. Esegui il comando toolbox:

    sudo toolbox

    Questo comando avvia un contenitore debug-toolbox.

  3. All'interno del contenitore, esegui uno degli strumenti. Ad esempio, tcpdump.

  4. Al termine, esci dal container e chiudi la connessione SSH nodo.

Rilevatore problemi nodo

Node Problem Detector, attivo per tutti i nodi di un cluster, consente di rilevare rapidamente alcuni problemi comuni dei nodi. Il rilevatore di problemi con i nodi continua a verificare la presenza di possibili risolvere problemi e generare report come gli eventi e le condizioni sul nodo. Se un nodo si comporta in modo anomalo, puoi verificare se il rilevatore problemi nodo lo ha rilevato eseguendo kubectl describe sul nodo e cercando gli eventi e le condizioni corrispondenti.

I monitor del rilevatore di problemi del nodo generano diverse condizioni sul nodo. Se la condizione segnalata è KubeletUnhealthy o ContainerRuntimeUnhealthy, un del servizio systemd corrispondente (kubelet o Docker) potrebbe essere utile per ripristinare l'integrità del nodo.

A partire da Google Distributed Cloud versione 1.5, kubelet e docker La riparazione automatica dei servizi di sistema è abilitata nel rilevatore di problemi dei nodi. Se Il rilevatore di problemi con il nodo rileva un KubeletUnhealthy o ContainerRuntimeUnhealthy sul nodo, prova a riavviare automaticamente kubelet o docker se la durata dall'ultimo riavvio è al di sopra di una determinata soglia.

Passaggi successivi

Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud.