Depurar problemas de nós

Esta página explica como depurar problemas de nós no Google Distributed Cloud (apenas software) para VMware através de um conjunto de ferramentas de depuração pré-instaladas.

Vista geral

Cada cluster do Google Distributed Cloud que criar é composto por vários nós. Cada nó inclui uma distribuição do CoreOStoolbox, um script de shell que descompacta e executa um contentor de depuração debug-toolbox. debug-toolbox é uma imagem de contentor que inclui várias ferramentas de depuração úteis.

Se tiver problemas com um nó específico, pode tentar a depuração estabelecendo ligação ao nó afetado, executando o script toolbox para descompactar e executar o contentor debug-toolbox e executando as ferramentas incluídas no contentor.

Ferramentas incluídas no contentor debug-toolbox

O contentor debug-toolbox executa uma imagem de base Debian que inclui os seguintes pacotes:

  • bash
  • curl
  • dnsutils
  • hping3
  • iperf3
  • lsof
  • netcat
  • mtr
  • procps
  • strace
  • tcpdump
  • traceroute
  • util-linux

Uma vez que estas ferramentas estão incluídas no contentor, não requerem uma ligação à Internet. Se quiser instalar ferramentas de depuração adicionais, use o comando apt-get, que requer uma ligação à Internet.

A usar toolbox

  1. SSH para o nó do cluster.

  2. Execute o comando toolbox:

    sudo toolbox

    Este comando inicia um contentor debug-toolbox.

  3. Enquanto estiver no contentor, execute uma das ferramentas. Por exemplo, tcpdump.

  4. Quando terminar, saia do contentor e feche a ligação SSH ao nó.

Node Problem Detector

O Node Problem Detector, que está ativado para todos os nós num cluster, ajuda na deteção rápida de alguns problemas comuns de nós. O Node Problem Detector continua a verificar possíveis problemas e comunica-os como eventos e condições no nó. Se um nó tiver um comportamento incorreto, pode verificar se o Node Problem Detector detetou o problema executando kubectl describe no nó e procurando os eventos e as condições correspondentes.

O Node Problem Detector monitoriza e gera várias condições no nó. Se a condição comunicada for KubeletUnhealthy ou ContainerRuntimeUnhealthy, um reinício do serviço systemd correspondente (kubelet ou Docker) pode ajudar a tornar o nó novamente saudável.

A partir da versão 1.5 do Google Distributed Cloud, a autorreparação do serviço kubelet e docker systemd está ativada no Node Problem Detector. Se o Node Problem Detector detetar uma condição KubeletUnhealthy ou ContainerRuntimeUnhealthy no nó, tenta reiniciar o serviço kubelet ou docker automaticamente se a duração desde o último reinício for superior a um determinado limite.

O que se segue?

Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.

Também pode consultar o artigo Receber apoio técnico para mais informações sobre recursos de apoio técnico, incluindo o seguinte: