Rimozione di nodi interrotti da Anthos in esecuzione in modalità disconnessa

Questa pagina è rivolta agli operatori di infrastruttura.

Quando un nodo non è disponibile, l'oggetto NodePool associato non viene aggiornato. Poiché il nodo non funzionante è ancora considerato parte del cluster, l'oggetto AdminOperator e lo stack di osservabilità potrebbero segnalare uno stato non integro. Per rimuovere un nodo danneggiato per riparazioni o sostituzione, puoi forzarne la rimozione dal cluster.

Per rimuovere un nodo non funzionante, segui questi passaggi:

  1. Per rimuovere la voce per il nodo scaricato, modifica l'oggetto Cluster per il cluster di amministrazione:

    1. Modifica il file admin.yaml per rimuovere la voce per il nodo indesiderato dalla relativa NodePool principale.
    2. Esegui il comando seguente per aggiornare il cluster:

      actl clusters baremetal update cluster admin --kubeconfig actl-workspace/admin/admin-kubeconfig
      
  2. Per verificare che esista un nodo in meno per il pool di nodi aggiornato, esegui il comando seguente:

    kubectl get nodepools -A
    

    Il nodo rimosso potrebbe continuare a essere mostrato quando viene eseguito il seguente comando:

    kubectl get nodes -o wide
    
  3. Per rimuovere l'oggetto Node, esegui il comando seguente per annotare la macchina che non funziona con l'annotazione baremetal.cluster.gke.io/force-remove. Il valore dell'annotazione stessa non è rilevante:

    kubectl --kubeconfig ADMIN_KUBECONFIG -n CLUSTER_NAMESPACE \
      annotate machine 10.200.0.8 baremetal.cluster.gke.io/force-remove=true
    
  4. Dopo che il controller avrà completato la riconciliazione delle modifiche, l'oggetto Node non sarà più visibile. L'oggetto AdminOperator e lo stack di osservabilità segnalano ora uno stato integro.