Node Problem Detector è una libreria open source che monitora l'integrità dei nodi e rileva problemi comuni dei nodi, come problemi di hardware, kernel o runtime dei container. In GDCV per Bare Metal, viene eseguito come servizio systemd su ciascun nodo.
A partire da GDCV per la release Bare Metal 1.10.0, Node Problem Detector è abilitato per impostazione predefinita.
Quali problemi rileva?
Il rilevatore dei problemi dei nodi può rilevare i seguenti tipi di problemi:
- Problemi di runtime dei container, ad esempio daemon di runtime che non rispondono
- Problemi hardware, come guasti di CPU, memoria o disco
- Problemi del kernel, ad esempio condizioni di deadlock del kernel o file system danneggiati
Viene eseguita su un nodo e segnala i problemi al server API Kubernetes come NodeCondition
o come Event
.
(Un NodeCondition
è un problema che impedisce a un nodo di eseguire i pod, mentre un Event
è un problema temporaneo che ha un effetto limitato sui pod, ma è comunque considerato abbastanza importante per generare report.
Alcuni dei NodeConditions
rilevati dal rilevatore di problemi dei nodi:
KernelDeadlock
ReadonlyFilesystem
FrequentKubeletRestart
FrequentDockerRestart
FrequentContainerdRestart
FrequentUnregisterNetDevice
KubeletUnhealthy
ContainerRuntimeUnhealthy
CorruptDockerOverlay2
Di seguito sono riportati alcuni esempi dei tipi di Events
segnalati dal rilevatore di problemi dei nodi:
Warning TaskHung node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: task docker:7 blocked for more than 300 seconds.
Warning KernelOops node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: BUG: unable to handle kernel NULL pointer dereference at 00x0.
Come visualizzare i problemi rilevati
Esegui questo comando kubectl describe
su un nodo per cercare NodeConditions
e Events
:
kubectl --kubeconfig=KUBECONFIG_PATH describe node NODE_NAME
Nel comando, sostituisci le seguenti voci con informazioni specifiche per il tuo ambiente:
KUBECONFIG_PATH
: il percorso del file kubeconfig del cluster di destinazione. Il percorso del file kubeconfig è in generebmctl-workspace/CLUSTER_NAME/CLUSTER_NAME-kubeconfig
. Tuttavia, se hai specificato l'area di lavoro con il flag WORKSPACE_DIR, il percorso èWORKSPACE_DIR/CLUSTER_NAME/CLUSTER_NAME-kubeconfig
.NODE_NAME
: il nome del nodo su cui vuoi le informazioni sanitarie.
Come abilitare/disabilitare il rilevatore di problemi dei nodi
Di seguito sono riportati i passaggi da seguire per abilitare il rilevatore di problemi dei nodi su un determinato cluster:
Modifica il file
ConfigMap
del cluster, chiamatonode-problem-detector-config
kubectl --kubeconfig=KUBECONFIG_PATH edit configmap \ node-problem-detector-config --namespace=CLUSTER_NAMESPACE
Questo comando avvia automaticamente un editor di testo (ad esempio vim o nano) in cui puoi modificare il file
node-problem-detector-config
. Nel comando, sostituisci le seguenti voci con informazioni specifiche per il tuo ambiente cluster:- KUBECONFIG_PATH: il percorso del file kubeconfig
del cluster di amministrazione. In genere, il percorso del file kubeconfig è
bmctl-workspace/CLUSTER_NAME/CLUSTER_NAME-kubeconfig
. Tuttavia, se hai specificato l'area di lavoro con il flag WORKSPACE_DIR, il percorso èWORKSPACE_DIR/CLUSTER_NAME/CLUSTER_NAME-kubeconfig
. - CLUSTER_NAMESPACE: lo spazio dei nomi del cluster in cui vuoi abilitare il rilevatore di problemi dei nodi.
- KUBECONFIG_PATH: il percorso del file kubeconfig
del cluster di amministrazione. In genere, il percorso del file kubeconfig è
Inizialmente, l'elemento
node-problem-detector-config
ConfigMap
non ha un campodata
. Aggiungi il campodata
alla mappa di configurazione con la seguente coppia chiave-valore:data: enabled: "true"
Per disabilitare il rilevatore di problemi dei nodi in uno spazio dei nomi del cluster, esegui i passaggi precedenti 1 e 2, ma nel passaggio 2 modifica il valore della chiave enabled
in "false".
Come arrestare/avviare il rilevatore di problemi dei nodi
Nodi Problem Detector viene eseguito come servizio systemd
su ciascun nodo. Per gestire il rilevatore di problemi dei nodi per un determinato nodo, utilizza SSH per accedere al nodo ed esegui i comandi systemctl
riportati di seguito.
Per disabilitare Node Problem Detector, esegui questo comando:
systemctl stop node-problem-detector
Per riavviare Node Problem Detector, esegui questo comando:
systemctl restart node-problem-detector
Per verificare se il rilevatore dei problemi dei nodi è in esecuzione su un determinato nodo, esegui questo comando:
systemctl is-active node-problem-detector
Funzionalità non supportate
GDCV per Bare Metal non supporta le seguenti personalizzazioni di Node Problem Detector:
- Esportazione dei report di Node Problem Detector in altri sistemi di monitoraggio, come Stackdriver o Prometheus.
- Personalizzazione dell'elemento
NodeConditions
oEvents
da cercare. - Esecuzione di script di monitoraggio definiti dall'utente.