Esta página foi traduzida pela API Cloud Translation.

Depurar problemas de nós

Esta página explica como depurar problemas de nós no Google Distributed Cloud (apenas software) para VMware através de um conjunto de ferramentas de depuração pré-instaladas.

Vista geral

Cada cluster do Google Distributed Cloud que criar é composto por vários nós. Cada nó inclui uma distribuição do CoreOStoolbox, um script de shell que descompacta e executa um contentor de depuração debug-toolbox. debug-toolbox é uma imagem de contentor que inclui várias ferramentas de depuração úteis.

Se tiver problemas com um nó específico, pode tentar a depuração estabelecendo ligação ao nó afetado, executando o script toolbox para descompactar e executar o contentor debug-toolbox e executando as ferramentas incluídas no contentor.

Ferramentas incluídas no contentor `debug-toolbox`

O contentor debug-toolbox executa uma imagem de base Debian que inclui os seguintes pacotes:

bash
curl
dnsutils
hping3
iperf3
lsof
netcat
mtr
procps
strace
tcpdump
traceroute
util-linux

Uma vez que estas ferramentas estão incluídas no contentor, não requerem uma ligação à Internet. Se quiser instalar ferramentas de depuração adicionais, use o comando apt-get, que requer uma ligação à Internet.

A usar `toolbox`

SSH para o nó do cluster.
Execute o comando toolbox:
```
sudo toolbox
```
Este comando inicia um contentor debug-toolbox.
Enquanto estiver no contentor, execute uma das ferramentas. Por exemplo, tcpdump.
Quando terminar, saia do contentor e feche a ligação SSH ao nó.

Node Problem Detector

O Node Problem Detector, que está ativado para todos os nós num cluster, ajuda na deteção rápida de alguns problemas comuns de nós. O Node Problem Detector continua a verificar possíveis problemas e comunica-os como eventos e condições no nó. Se um nó tiver um comportamento incorreto, pode verificar se o Node Problem Detector detetou o problema executando kubectl describe no nó e procurando os eventos e as condições correspondentes.

O Node Problem Detector monitoriza e gera várias condições no nó. Se a condição comunicada for KubeletUnhealthy ou ContainerRuntimeUnhealthy, um reinício do serviço systemd correspondente (kubelet ou Docker) pode ajudar a tornar o nó novamente saudável.

A partir da versão 1.5 do Google Distributed Cloud, a autorreparação do serviço kubelet e docker systemd está ativada no Node Problem Detector. Se o Node Problem Detector detetar uma condição KubeletUnhealthy ou ContainerRuntimeUnhealthy no nó, tenta reiniciar o serviço kubelet ou docker automaticamente se a duração desde o último reinício for superior a um determinado limite.

O que se segue?

Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.

Também pode consultar o artigo Receber apoio técnico para mais informações sobre recursos de apoio técnico, incluindo o seguinte:

Requisitos para abrir um registo de apoio ao cliente.
Ferramentas para ajudar a resolver problemas, como registos e métricas.
Componentes suportados, versões e funcionalidades do Google Distributed Cloud para VMware (apenas software).