Debug dei problemi relativi ai nodi

Questa pagina spiega come eseguire il debug dei problemi dei nodi su Google Distributed Cloud (solo software) per VMware usando una suite di strumenti di debug preinstallati.

Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.

Panoramica

Ogni cluster Google Distributed Cloud che crei è composto da diversi nodi. Ogni nodo include una distribuzione CoreOS toolbox, una shell script che decomprime ed esegue un container di debug, debug-toolbox. debug-toolbox è un'immagine container che include diversi utili funzioni di debug strumenti.

Se riscontri problemi con un nodo specifico, puoi provare a eseguire il debug connettendoti al nodo interessato, esegui lo script toolbox per decomprimere ed eseguire debug-toolbox ed esegui gli strumenti inclusi nel container.

Strumenti inclusi in debug-toolbox contenitore

Il container debug-toolbox esegue un'immagine di base Debian che include i seguenti pacchetti:

  • bash
  • curl
  • dnsutils
  • hping3
  • iperf3
  • lsof
  • Netcat
  • mtr
  • procp
  • Strace
  • tcpdump
  • traceroute
  • util-linux

Poiché questi strumenti sono inclusi nel container, non richiedono una connessione a internet connessione. Se vuoi installare altri strumenti di debug, utilizza apt-get, che richiede una connessione a internet.

Uso: toolbox

  1. Accedi tramite SSH al nodo del cluster.

  2. Esegui il comando toolbox:

    sudo toolbox

    Questo comando avvia un container debug-toolbox.

  3. Una volta all'interno del container, esegui uno degli strumenti. Ad esempio: tcpdump.

  4. Al termine, esci dal container e chiudi la connessione SSH nodo.

Rilevatore problemi nodo

Rilevamento problemi dei nodi, che è abilitato per tutti i nodi in un cluster, aiuta a rilevare rapidamente di alcuni problemi comuni relativi ai nodi. Il rilevatore di problemi con i nodi continua a verificare la presenza di possibili risolvere problemi e generare report come gli eventi e le condizioni sul nodo. Se un nodo si comporta in modo anomalo, puoi verificare se il rilevatore di problemi del nodo ha rilevato il problema che esegue kubectl describe sul nodo e cerca gli eventi corrispondenti e condizioni ambientali.

I monitor del rilevatore di problemi del nodo generano diverse condizioni sul nodo. Se la condizione segnalata è KubeletUnhealthy o ContainerRuntimeUnhealthy, un del servizio systemd corrispondente (kubelet o Docker) potrebbe essere utile per ripristinare l'integrità del nodo.

A partire da Google Distributed Cloud versione 1.5, kubelet e docker La riparazione automatica dei servizi di sistema è abilitata nel rilevatore di problemi dei nodi. Se Il rilevatore di problemi con il nodo rileva un KubeletUnhealthy o ContainerRuntimeUnhealthy sul nodo, prova a riavviare automaticamente kubelet o docker se la durata dall'ultimo riavvio è al di sopra di una determinata soglia.

Passaggi successivi

Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.