Detector de problemas de nós

O Node Problem Detector é uma biblioteca de código aberto que monitora a integridade dos nós e detecta problemas comuns de nós, como hardware, kernel ou problemas de tempo de execução de contêineres. Em GDCV para Bare Metal, ele é executado como um serviço systemd em cada nó.

A partir da GDCV para a versão 1.10.0 do Bare Metal, o Detector de problemas do nó é ativado por padrão.

Quais problemas ele detecta?

O detector de problemas do nó pode detectar os seguintes tipos de problemas:

Problemas no ambiente de execução do contêiner, como daemons do ambiente de execução sem resposta
Problemas de hardware, como falhas de CPU, memória ou disco
Problemas de kernel, como condições de impasse do kernel ou sistemas de arquivos corrompidos

Ele é executado em um nó e informa problemas no servidor da API Kubernetes como um NodeCondition ou como um Event. NodeCondition é um problema que impede o nó de executar pods, enquanto um Event é um problema temporário que tem efeito limitado nos pods, mas é considerado importante o suficiente para ser relatado.

Alguns dos NodeConditions descobertos pelo detector de problemas do nó são:

KernelDeadlock
ReadonlyFilesystem
FrequentKubeletRestart
FrequentDockerRestart
FrequentContainerdRestart
FrequentUnregisterNetDevice
KubeletUnhealthy
ContainerRuntimeUnhealthy
CorruptDockerOverlay2

Alguns exemplos dos tipos de Events relatados pelo Node Problem Detector são:

Warning TaskHung node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: task docker:7 blocked for more than 300 seconds.
Warning KernelOops node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: BUG: unable to handle kernel NULL pointer dereference at 00x0.

Como ver os problemas detectados

Execute o seguinte comando kubectl describe em um nó para procurar NodeConditions e Events:

kubectl --kubeconfig=KUBECONFIG_PATH describe node NODE_NAME

No comando, substitua as seguintes entradas por informações específicas ao ambiente:

KUBECONFIG_PATH: o caminho até o arquivo kubeconfig do cluster de destino. O caminho para o arquivo kubeconfig geralmente é bmctl-workspace/CLUSTER_NAME/CLUSTER_NAME-kubeconfig. No entanto, se você tiver especificado o espaço de trabalho com a sinalização WORKSPACE_DIR, o caminho será WORKSPACE_DIR/CLUSTER_NAME/CLUSTER_NAME-kubeconfig.
NODE_NAME: o nome do nó sobre o qual você quer informações sobre integridade.

Como ativar/desativar o detector de problemas do nó

Siga estas etapas para ativar o detector de problema do nó em um determinado cluster:

Edite o arquivo ConfigMap do cluster chamado node-problem-detector-config.
```
   kubectl --kubeconfig=KUBECONFIG_PATH edit configmap \
       node-problem-detector-config --namespace=CLUSTER_NAMESPACE
```
Esse comando inicia automaticamente um editor de texto (como vim ou nano) para editar o arquivo node-problem-detector-config. No comando, substitua as seguintes entradas por informações específicas ao ambiente do cluster:
- KUBECONFIG_PATH: o caminho até o arquivo kubeconfig do cluster de administrador. O caminho para o arquivo kubeconfig geralmente é bmctl-workspace/CLUSTER_NAME/CLUSTER_NAME-kubeconfig. No entanto, se você tiver especificado seu espaço de trabalho com a sinalização WORKSPACE_DIR, o caminho será WORKSPACE_DIR/CLUSTER_NAME/CLUSTER_NAME-kubeconfig.
- CLUSTER_NAMESPACE: o namespace do cluster em que você quer ativar o detector de problemas do nó
Inicialmente, o ConfigMap da node-problem-detector-config não tem um campo data. Adicione o campo data ao mapa de configuração com o seguinte par de chave-valor:
```
data:
  enabled: "true"
```

Para desativar o detector de problemas do nó em um namespace do cluster, execute as etapas anteriores 1 e 2, mas, na etapa 2, altere o valor da chave enabled para "falso".

Como parar/iniciar o detector de problemas do nó

O detector de problemas do nó é executado como um serviço systemd em cada nó. Para gerenciar o detector de problemas de um nó, use o SSH para acessar o nó e execute os seguintes comandos systemctl.

Para desativar o Detector de problemas do nó, execute o seguinte comando:

systemctl stop node-problem-detector

Para reiniciar o detector de problemas do nó, execute o seguinte comando:

systemctl restart node-problem-detector

Para verificar se o Detector de problemas de nós está sendo executado em um nó específico, execute o seguinte comando:

systemctl is-active node-problem-detector

Recursos não compatíveis

O GDCV para Bare Metal não é compatível com as seguintes personalizações do Detector de problemas do nó:

Exportar relatórios do Detector de problemas de nós para outros sistemas de monitoramento, como Stackdriver ou Prometheus
Personalizando qual NodeConditions ou Events procurar.
Executar scripts de monitoramento definidos pelo usuário.