Questa pagina è stata tradotta dall'API Cloud Translation.

Node Problem Detector

Node Problem Detector è una libreria open source che monitora l'integrità dei nodi e rileva problemi comuni dei nodi, ad esempio problemi di hardware, kernel o runtime del container. In Google Distributed Cloud, viene eseguito come servizio systemd su ogni nodo.

A partire dalla release 1.10.0 di Google Distributed Cloud, Node Problem Detector è abilitato per impostazione predefinita.

Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud. Puoi anche consultare la sezione Richiedere assistenza per ulteriori informazioni sulle risorse di assistenza, tra cui:

Requisiti per l'apertura di una richiesta di assistenza.
Strumenti per aiutarti a risolvere i problemi, ad esempio la configurazione dell'ambiente, i log e le metriche.
Componenti supportati.

Quali problemi rileva?

Node Problem Detector può rilevare i seguenti tipi di problemi:

Problemi del runtime container, ad esempio daemon runtime che non rispondono
Problemi hardware, come guasti di CPU, memoria o disco
Problemi del kernel, come condizioni di deadlock del kernel o file system danneggiati

Viene eseguito su un nodo e segnala i problemi al server API Kubernetes come NodeCondition o come Event. Un NodeCondition è un problema che impedisce a un nodo di eseguire pod, mentre un Event è un problema temporaneo che ha un effetto limitato sui pod, ma è comunque considerato abbastanza importante da essere segnalato.

La tabella seguente descrive i NodeConditions rilevati da Node Problem Detector e se possono essere riparati automaticamente:

Condizione	Motivo	Riparazione automatica supportata¹
`KernelDeadlock`	I processi del kernel sono bloccati in attesa che altri processi del kernel rilascino le risorse richieste.	No
`ReadonlyFilesystem`	Il cluster non è in grado di scrivere nel file system a causa di un problema, ad esempio il disco è pieno.	No
`FrequentKubeletRestart`	kubelet viene riavviato di frequente, il che impedisce al nodo di eseguire i pod in modo efficace.	No
`FrequentDockerRestart`	Il daemon Docker è stato riavviato più di 5 volte in 20 minuti.	No
`FrequentContainerdRestart`	Il runtime del container è stato riavviato più di 5 volte in 20 minuti.	No
`FrequentUnregisterNetDevice`	Il nodo sta riscontrando una deregistrazione frequente dei dispositivi di rete.	No
`KubeletUnhealthy`	Il nodo non funziona correttamente o non risponde al control plane.	No
`ContainerRuntimeUnhealthy`	Il runtime del container non funziona correttamente, impedendo l'esecuzione o la pianificazione dei pod sul nodo.	No
`CorruptDockerOverlay2`	Si verificano problemi o incoerenze del file system all'interno della directory del driver di archiviazione Docker overlay2.	No
`OrphanContainers`²	Un pod specifico per un container è stato eliminato, ma il container corrispondente esiste ancora nel nodo.	No
`FailedCgroupRemoval`²	Alcuni cgroup sono in stato di blocco.	Sì

¹ Per le versioni 1.32 e successive, la possibilità di riparare automaticamente i problemi rilevati è supportata per determinate condizioni.

² Supportato per le versioni 1.32 e successive.

Alcuni esempi dei tipi di Events segnalati da Node Problem Detector sono:

Warning TaskHung node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: task docker:7 blocked for more than 300 seconds.
Warning KernelOops node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: BUG: unable to handle kernel NULL pointer dereference at 00x0.

Quali problemi risolve?

A partire dalla versione 1.32, quando Node Problem Detector rileva determinati NodeConditions, può riparare automaticamente il problema corrispondente sul nodo. A partire dalla versione 1.32, l'unico NodeCondition che supporta la riparazione automatica è FailedCgroupRemoval.

Come visualizzare i problemi rilevati

Esegui questo comando kubectl describe per cercare NodeConditions e Events:

kubectl describe node NODE_NAME \
    --kubeconfig=KUBECONFIG

Sostituisci quanto segue:

NODE_NAME: il nome del nodo che stai controllando.
KUBECONFIG: il percorso del file kubeconfig del cluster.

Come attivare e disattivare Node Problem Detector

Per impostazione predefinita, Node Problem Detector è abilitato, ma può essere disattivato nella risorsa ConfigMap node-problem-detector-config. A meno che tu non lo disattivi esplicitamente, Node Problem Detector monitora continuamente i nodi per rilevare condizioni specifiche che indicano problemi per il nodo.

Per disabilitare Node Problem Detector su un determinato cluster, segui questi passaggi:

Modifica la risorsa ConfigMap node-problem-detector-config:
```
kubectl edit configmap node-problem-detector-config \
    --kubeconfig=KUBECONFIG \
    --namespace=CLUSTER_NAMESPACE
```
Sostituisci quanto segue:
- KUBECONFIG: il percorso del file kubeconfig del cluster.
- CLUSTER_NAMESPACE: lo spazio dei nomi del cluster in cui vuoi attivare Node Problem Detector.
Questo comando avvia automaticamente un editor di testo in cui puoi modificare la risorsa node-problem-detector-config.
Imposta data.enabled su false nella definizione della risorsa node-problem-detector-config.
```
apiVersion: v1
kind: ConfigMap
metadata:
  creationTimestamp: "2025-04-19T21:36:44Z"
  name: node-problem-detector-config
...
data:
  enabled: "false"
```
Inizialmente, il ConfigMap node-problem-detector-config non ha un campo data, quindi potresti doverlo aggiungere.
Per aggiornare la risorsa, salva le modifiche e chiudi l'editor.

Per riattivare Node Problem Detector, esegui i passaggi precedenti, ma imposta data.enabled su true nella definizione della risorsa node-problem-detector-config.

Come attivare e disattivare la riparazione automatica

A partire dalla versione 1.32, Node Problem Detector verifica la presenza di NodeConditions specifici e ripara automaticamente il problema corrispondente sul nodo. Per impostazione predefinita, la riparazione automatica è abilitata per i NodeConditions supportati, ma può essere disattivata nella risorsa ConfigMap node-problem-detector-config.

Per disattivare il comportamento di riparazione automatica su un determinato cluster, segui questi passaggi:

Modifica la risorsa ConfigMap node-problem-detector-config:
```
kubectl edit configmap node-problem-detector-config \
    --kubeconfig=KUBECONFIG \
    --namespace=CLUSTER_NAMESPACE
```
Sostituisci quanto segue:
- KUBECONFIG: il percorso del file kubeconfig del cluster.
- CLUSTER_NAMESPACE: lo spazio dei nomi del cluster in cui vuoi attivare Node Problem Detector.
Questo comando avvia automaticamente un editor di testo in cui puoi modificare la risorsa node-problem-detector-config.
Imposta data.check-only su true nella definizione della risorsa node-problem-detector-config.
```
apiVersion: v1
kind: ConfigMap
metadata:
  creationTimestamp: "2025-04-19T21:36:44Z"
  name: node-problem-detector-config
...
data:
  enabled: "true"
  check-only: "true"
```
Inizialmente, il ConfigMap node-problem-detector-config non ha un campo data, quindi potresti doverlo aggiungere. Se imposti check-only su "true", la riparazione automatica viene disattivata per tutte le condizioni supportate.
Per aggiornare la risorsa, salva le modifiche e chiudi l'editor.

Per riattivare la riparazione automatica per tutti i NodeConditions che la supportano, imposta data.check-only su "false" in ConfigMap node-problem-detector-config.

Come arrestare e riavviare Node Problem Detector

Node Problem Detector viene eseguito come servizio systemd su ogni nodo. Per gestire Node Problem Detector per un determinato nodo, utilizza SSH per accedere al nodo ed esegui i seguenti comandi systemctl.

Per disattivare Node Problem Detector, esegui questo comando:
```
systemctl stop node-problem-detector
```
Per riavviare Node Problem Detector, esegui questo comando:
```
systemctl restart node-problem-detector
```
Per verificare se Node Problem Detector è in esecuzione su un determinato nodo, esegui il seguente comando:
```
systemctl is-active node-problem-detector
```

Funzionalità non supportate

Google Distributed Cloud non supporta le seguenti personalizzazioni di Node Problem Detector:

Esportazione dei report di Node Problem Detector in altri sistemi di monitoraggio, come Stackdriver o Prometheus.
Personalizzare i NodeConditions o i Events da cercare.
Esecuzione di script di monitoraggio definiti dall'utente.

Passaggi successivi

Requisiti per l'apertura di una richiesta di assistenza.
Strumenti per aiutarti a risolvere i problemi, ad esempio la configurazione dell'ambiente, i log e le metriche.
Componenti supportati.