Esta página explica como depurar problemas de nós no Google Distributed Cloud (apenas software) para VMware através de um conjunto de ferramentas de depuração pré-instaladas.
Vista geral
Cada cluster do Google Distributed Cloud que criar é composto por vários nós. Cada nó inclui uma distribuição do CoreOStoolbox
, um script de shell que descompacta e executa um contentor de depuração debug-toolbox
.
debug-toolbox
é uma imagem de contentor que inclui várias ferramentas de depuração úteis.
Se tiver problemas com um nó específico, pode tentar a depuração
estabelecendo ligação ao nó afetado, executando o script toolbox
para descompactar e executar o contentor debug-toolbox
e executando as ferramentas incluídas no contentor.
Ferramentas incluídas no contentor debug-toolbox
O contentor debug-toolbox
executa uma imagem de base Debian que inclui os seguintes pacotes:
- bash
- curl
- dnsutils
- hping3
- iperf3
- lsof
- netcat
- mtr
- procps
- strace
- tcpdump
- traceroute
- util-linux
Uma vez que estas ferramentas estão incluídas no contentor, não requerem uma ligação à Internet. Se quiser instalar ferramentas de depuração adicionais, use o comando
apt-get
, que requer uma ligação à Internet.
A usar toolbox
Execute o comando
toolbox
:sudo toolbox
Este comando inicia um contentor
debug-toolbox
.Enquanto estiver no contentor, execute uma das ferramentas. Por exemplo,
tcpdump
.Quando terminar, saia do contentor e feche a ligação SSH ao nó.
Node Problem Detector
O Node Problem Detector, que está ativado para todos os nós num cluster, ajuda na deteção rápida de alguns problemas comuns de nós. O Node Problem Detector continua a verificar possíveis problemas e comunica-os como eventos e condições no nó. Se um nó tiver um comportamento incorreto, pode verificar se o Node Problem Detector detetou o problema executando kubectl describe
no nó e procurando os eventos e as condições correspondentes.
O Node Problem Detector monitoriza e gera várias condições no nó. Se a condição comunicada for KubeletUnhealthy
ou ContainerRuntimeUnhealthy
, um reinício do serviço systemd
correspondente (kubelet ou Docker) pode ajudar a tornar o nó novamente saudável.
A partir da versão 1.5 do Google Distributed Cloud, a autorreparação do serviço kubelet e docker systemd está ativada no Node Problem Detector. Se o Node Problem Detector detetar uma condição KubeletUnhealthy
ou ContainerRuntimeUnhealthy
no nó, tenta reiniciar o serviço kubelet ou docker automaticamente se a duração desde o último reinício for superior a um determinado limite.
O que se segue?
Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.
Também pode consultar o artigo Receber apoio técnico para mais informações sobre recursos de apoio técnico, incluindo o seguinte:
- Requisitos para abrir um registo de apoio técnico.
- Ferramentas para ajudar a resolver problemas, como registos e métricas.
- Componentes suportados, versões e funcionalidades do Google Distributed Cloud para VMware (apenas software).