Node Problem Detector

Node Problem Detector è una libreria open source che monitora l'integrità dei nodi e rileva problemi comuni dei nodi, ad esempio problemi di hardware, kernel o runtime del container. In Google Distributed Cloud, viene eseguito come servizio systemd su ogni nodo.

A partire dalla release 1.10.0 di Google Distributed Cloud, Node Problem Detector è abilitato per impostazione predefinita.

Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud. Puoi anche consultare la sezione Richiedere assistenza per ulteriori informazioni sulle risorse di assistenza, tra cui:

  • Requisiti per l'apertura di una richiesta di assistenza.
  • Strumenti per aiutarti a risolvere i problemi, ad esempio la configurazione dell'ambiente, i log e le metriche.
  • Componenti supportati.

Quali problemi rileva?

Node Problem Detector può rilevare i seguenti tipi di problemi:

  • Problemi del runtime container, ad esempio daemon runtime che non rispondono
  • Problemi hardware, ad esempio guasti di CPU, memoria o disco
  • Problemi del kernel, come condizioni di deadlock del kernel o file system danneggiati

Viene eseguito su un nodo e segnala i problemi al server API Kubernetes come NodeCondition o come Event. Un NodeCondition è un problema che impedisce a un nodo di eseguire i pod, mentre un Event è un problema temporaneo che ha un effetto limitato sui pod, ma è comunque considerato abbastanza importante da essere segnalato.

La seguente tabella descrive i NodeConditions rilevati da Node Problem Detector e se possono essere riparati automaticamente:

Condizione Motivo Riparazione automatica supportata1
KernelDeadlock I processi del kernel sono bloccati in attesa che altri processi del kernel rilascino le risorse richieste. No
ReadonlyFilesystem Il cluster non è in grado di scrivere nel file system a causa di un problema, ad esempio il disco è pieno. No
FrequentKubeletRestart kubelet viene riavviato di frequente, il che impedisce al nodo di eseguire i pod in modo efficace. No
FrequentDockerRestart Il daemon Docker è stato riavviato più di 5 volte in 20 minuti. No
FrequentContainerdRestart Il runtime del container è stato riavviato più di 5 volte in 20 minuti. No
FrequentUnregisterNetDevice Il nodo sta riscontrando una deregistrazione frequente dei dispositivi di rete. No
KubeletUnhealthy Il nodo non funziona correttamente o non risponde al control plane. No
ContainerRuntimeUnhealthy Il runtime del container non funziona correttamente, impedendo l'esecuzione o la pianificazione dei pod sul nodo. No
CorruptDockerOverlay2 Si verificano problemi o incoerenze del file system all'interno della directory del driver di archiviazione Docker overlay2. No
OrphanContainers2 Un pod specifico per un container è stato eliminato, ma il container corrispondente esiste ancora nel nodo. No
FailedCgroupRemoval2 Alcuni cgroup sono in stato di blocco.

1 Per le versioni 1.32 e successive, la possibilità di riparare automaticamente i problemi rilevati è supportata per determinate condizioni.

2 Supportato per le versioni 1.32 e successive.

Alcuni esempi dei tipi di Events segnalati da Node Problem Detector sono:

  • Warning TaskHung node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: task docker:7 blocked for more than 300 seconds.
  • Warning KernelOops node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: BUG: unable to handle kernel NULL pointer dereference at 00x0.

Quali problemi ripara?

A partire dalla versione 1.32, quando Node Problem Detector rileva determinati NodeConditions, può riparare automaticamente il problema corrispondente sul nodo. A partire dalla versione 1.32, l'unico NodeCondition che supporta la riparazione automatica è FailedCgroupRemoval.

Come visualizzare i problemi rilevati

Esegui questo comando kubectl describe per cercare NodeConditions e Events:

kubectl describe node NODE_NAME \
    --kubeconfig=KUBECONFIG

Sostituisci quanto segue:

  • NODE_NAME: il nome del nodo che stai controllando.

  • KUBECONFIG: il percorso del file kubeconfig del cluster.

Come attivare e disattivare Node Problem Detector

Per impostazione predefinita, Node Problem Detector è abilitato, ma può essere disattivato nella risorsa ConfigMap node-problem-detector-config. A meno che tu non lo disattivi esplicitamente, Node Problem Detector monitora continuamente i nodi per rilevare condizioni specifiche che indicano problemi per il nodo.

Per disattivare Node Problem Detector su un determinato cluster, segui questi passaggi:

  1. Modifica la risorsa ConfigMap node-problem-detector-config:

    kubectl edit configmap node-problem-detector-config \
        --kubeconfig=KUBECONFIG \
        --namespace=CLUSTER_NAMESPACE
    

    Sostituisci quanto segue:

    • KUBECONFIG: il percorso del file kubeconfig del cluster.

    • CLUSTER_NAMESPACE: lo spazio dei nomi del cluster in cui vuoi abilitare Node Problem Detector.

    Questo comando avvia automaticamente un editor di testo in cui puoi modificare la risorsa node-problem-detector-config.

  2. Imposta data.enabled su false nella definizione della risorsa node-problem-detector-config.

    apiVersion: v1
    kind: ConfigMap
    metadata:
      creationTimestamp: "2025-04-19T21:36:44Z"
      name: node-problem-detector-config
    ...
    data:
      enabled: "false"
    

    Inizialmente, il ConfigMap node-problem-detector-config non ha un campo data, quindi potrebbe essere necessario aggiungerlo.

  3. Per aggiornare la risorsa, salva le modifiche e chiudi l'editor.

Per riattivare Node Problem Detector, esegui i passaggi precedenti, ma imposta data.enabled su true nella definizione della risorsa node-problem-detector-config.

Come attivare e disattivare la riparazione automatica

A partire dalla versione 1.32, Node Problem Detector verifica la presenza di NodeConditions specifici e ripara automaticamente il problema corrispondente sul nodo. Per impostazione predefinita, la riparazione automatica è abilitata per i NodeConditions supportati, ma può essere disattivata nella risorsa ConfigMap node-problem-detector-config.

Per disattivare il comportamento di riparazione automatica su un determinato cluster:

  1. Modifica la risorsa ConfigMap node-problem-detector-config:

    kubectl edit configmap node-problem-detector-config \
        --kubeconfig=KUBECONFIG \
        --namespace=CLUSTER_NAMESPACE
    

    Sostituisci quanto segue:

    • KUBECONFIG: il percorso del file kubeconfig del cluster.

    • CLUSTER_NAMESPACE: lo spazio dei nomi del cluster in cui vuoi abilitare Node Problem Detector.

    Questo comando avvia automaticamente un editor di testo in cui puoi modificare la risorsa node-problem-detector-config.

  2. Imposta data.check-only su true nella definizione della risorsa node-problem-detector-config.

    apiVersion: v1
    kind: ConfigMap
    metadata:
      creationTimestamp: "2025-04-19T21:36:44Z"
      name: node-problem-detector-config
    ...
    data:
      enabled: "true"
      check-only: "true"
    

    Inizialmente, il ConfigMap node-problem-detector-config non ha un campo data, quindi potrebbe essere necessario aggiungerlo. Se imposti check-only su "true", la riparazione automatica viene disattivata per tutte le condizioni supportate.

  3. Per aggiornare la risorsa, salva le modifiche e chiudi l'editor.

Per riattivare la riparazione automatica per tutti i NodeConditions che la supportano, imposta data.check-only su "false" in ConfigMap node-problem-detector-config.

Come arrestare e riavviare Node Problem Detector

Node Problem Detector viene eseguito come servizio systemd su ogni nodo. Per gestire Node Problem Detector per un determinato nodo, utilizza SSH per accedere al nodo ed esegui i seguenti comandi systemctl.

  • Per disattivare Node Problem Detector, esegui questo comando:

    systemctl stop node-problem-detector
    
  • Per riavviare Node Problem Detector, esegui questo comando:

    systemctl restart node-problem-detector
    
  • Per verificare se Node Problem Detector è in esecuzione su un nodo specifico, esegui questo comando:

    systemctl is-active node-problem-detector
    

Funzionalità non supportate

Google Distributed Cloud non supporta le seguenti personalizzazioni di Node Problem Detector:

  • Esportazione dei report di Node Problem Detector in altri sistemi di monitoraggio, come Stackdriver o Prometheus.
  • Personalizzare i NodeConditions o i Events da cercare.
  • Esecuzione di script di monitoraggio definiti dall'utente.

Passaggi successivi

Se hai bisogno di ulteriore assistenza, contatta l'assistenza clienti Google Cloud. Puoi anche consultare la sezione Richiedere assistenza per ulteriori informazioni sulle risorse di assistenza, tra cui:

  • Requisiti per l'apertura di una richiesta di assistenza.
  • Strumenti per aiutarti a risolvere i problemi, ad esempio la configurazione dell'ambiente, i log e le metriche.
  • Componenti supportati.