Riparazione automatica dei nodi


Questa pagina fornisce informazioni sulla riparazione automatica dei nodi nei cluster Google Kubernetes Engine (GKE).

Panoramica

La riparazione automatica dei nodi consente di mantenere i nodi nel tuo cluster GKE in stato integro e in esecuzione. Se abilitato, GKE esegue controlli periodici dello stato di integrità di ciascun nodo nel cluster. Se un nodo non supera controlli di integrità consecutivi per un periodo di tempo prolungato, GKE avvia un processo di riparazione per tale nodo.

Impostazioni per Autopilot e Standard

I cluster Autopilot riparano sempre i nodi in modo automatico. Non puoi disattivare questa impostazione.

Nei cluster Standard, la riparazione automatica dei nodi è abilitata per impostazione predefinita per i nuovi pool di nodi. Puoi disabilitare la riparazione automatica per un pool di nodi esistente, ma ti consigliamo di mantenere la configurazione predefinita.

Criteri di riparazione

GKE utilizza lo stato di integrità del nodo per determinare se un nodo deve essere riparato. Un nodo che segnala lo stato Ready è considerato integro. GKE attiva un'azione di riparazione se un nodo segnala report di stato non integro consecutivi per una determinata soglia di tempo. Uno stato non integro può indicare che:

  • Un nodo segnala uno stato NotReady su controlli consecutivi oltre la soglia di tempo specificata (circa 10 minuti).
  • Un nodo non segnala alcuno stato oltre la soglia di tempo specificata (circa 10 minuti).
  • Il disco di avvio di un nodo ha esaurito lo spazio su disco per un periodo di tempo prolungato (circa 30 minuti).

Puoi controllare manualmente gli indicatori di integrità del nodo in qualsiasi momento utilizzando il comando kubectl get nodes.

Procedura di riparazione dei nodi

Se GKE rileva che un nodo deve essere riparato, viene svuotato e ricreato. GKE attende un'ora per il completamento dello svuotamento. Se lo svuotamento non viene completato, il nodo viene arrestato e ne viene creato uno nuovo.

Se più nodi richiedono la riparazione, GKE potrebbe riparare i nodi in parallelo. GKE bilancia il numero di riparazioni in base alle dimensioni del cluster e al numero di nodi danneggiati. GKE riparerà più nodi in parallelo su un cluster più grande, ma meno nodi man mano che cresce il numero di nodi non integri.

Se disabiliti la riparazione automatica dei nodi in qualsiasi momento durante il processo di riparazione, le riparazioni in corso non vengono annullate e continuano per tutti i nodi attualmente in riparazione.

Cronologia delle riparazioni dei nodi

GKE genera una voce di log per gli eventi di riparazione automatica. Puoi controllare i log eseguendo questo comando:

gcloud container operations list

Riparazione automatica dei nodi nei nodi TPU

Se utilizzi un pool di nodi della sezione TPU multi-host, ovvero un pool di nodi che contiene due o più VM TPU interconnesse, i criteri di riparazione automatica dei nodi sono diversi. Se un nodo TPU in un pool di nodi della sezione TPU multi-host non è integro e richiede la riparazione automatica, viene ricreato l'intero pool di nodi. Per scoprire di più sulle condizioni dei nodi TPU, consulta Riparazione automatica dei nodi TPU.

Abilita la riparazione automatica per un pool di nodi Standard esistente

Puoi abilitare la riparazione automatica dei nodi in base al pool di nodi.

Se la riparazione automatica è disabilitata su un pool di nodi esistente in un cluster Standard, utilizza le seguenti istruzioni per abilitarla:

gcloud

gcloud container node-pools update POOL_NAME \
    --cluster CLUSTER_NAME \
    --region=COMPUTE_REGION \
    --enable-autorepair

Sostituisci quanto segue:

  • POOL_NAME: il nome del pool di nodi.
  • CLUSTER_NAME: il nome del tuo cluster Standard.
  • COMPUTE_REGION: la regione di Compute Engine per il cluster. Per i cluster di zona, utilizza l'opzione --zone COMPUTE_ZONE.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Nell'elenco dei cluster, fai clic sul nome del cluster da modificare.

  3. Fai clic sulla scheda Nodi.

  4. In Pool di nodi, fai clic sul nome del pool di nodi che vuoi modificare.

  5. Nella pagina Dettagli del pool di nodi, fai clic su Modifica.

  6. In Gestione, seleziona la casella di controllo Abilita riparazione automatica.

  7. Fai clic su Salva.

Verificare che la riparazione automatica dei nodi sia abilitata per un pool di nodi Standard

La riparazione automatica dei nodi è abilitata per pool di nodi. Puoi verificare che la riparazione automatica dei nodi sia abilitata per un pool di nodi nel tuo cluster con Google Cloud CLI o con la console Google Cloud.

gcloud

Descrivi il pool di nodi:

gcloud container node-pools describe NODE_POOL_NAME \
--cluster=CLUSTER_NAME

Se la riparazione automatica dei nodi è abilitata, l'output del comando includerà le seguenti righe:

management:
  ...
  autoRepair: true

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Nella pagina di Google Kubernetes Engine, fai clic sul nome del cluster del pool di nodi da ispezionare.

  3. Fai clic sulla scheda Nodi.

  4. In Pool di nodi, fai clic sul nome del pool di nodi da ispezionare.

  5. In Gestione, nel campo Riparazione automatica, verifica che la riparazione automatica sia abilitata.

Disabilita la riparazione automatica dei nodi

Puoi disabilitare la riparazione automatica dei nodi per un pool di nodi esistente in un cluster standard utilizzando gcloud CLI o la console Google Cloud.

gcloud

gcloud container node-pools update POOL_NAME \
    --cluster CLUSTER_NAME \
    --region=COMPUTE_REGION \
    --no-enable-autorepair

Sostituisci quanto segue:

  • POOL_NAME: il nome del pool di nodi.
  • CLUSTER_NAME: il nome del tuo cluster Standard.
  • COMPUTE_REGION: la regione di Compute Engine per il cluster. Per i cluster di zona, utilizza l'opzione --zone COMPUTE_ZONE.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Nell'elenco dei cluster, fai clic sul nome del cluster da modificare.

  3. Fai clic sulla scheda Nodi.

  4. In Pool di nodi, fai clic sul nome del pool di nodi che vuoi modificare.

  5. Nella pagina Dettagli del pool di nodi, fai clic su Modifica.

  6. In Gestione, deseleziona la casella di controllo Abilita riparazione automatica.

  7. Fai clic su Salva.

Passaggi successivi