Quita los nodos dañados de Anthos que se ejecutan en modo desconectado

Esta página está destinada a operadores de infraestructura.

Cuando un nodo falla, el objeto NodePool asociado no se actualiza. Dado que el nodo inactivo aún se considera parte del clúster, el objeto AdminOperator y la pila de observabilidad pueden informar un mal estado. A fin de quitar un nodo dañado para su reparación o reemplazo, puedes forzar su eliminación del clúster.

Para quitar un nodo dañado, sigue estos pasos:

  1. Para quitar la entrada del nodo inhabilitado, edita el objeto Cluster del clúster de administrador:

    1. Edita el archivo admin.yaml para quitar la entrada del nodo no deseado de su NodePool superior.
    2. Ejecuta el siguiente comando para actualizar el clúster:

      actl clusters baremetal update cluster admin --kubeconfig actl-workspace/admin/admin-kubeconfig
      
  2. A fin de verificar que haya un nodo menos para el grupo de nodos actualizado, ejecuta el siguiente comando:

    kubectl get nodepools -A
    

    El nodo que se quitó podría aparecer cuando se ejecuta el siguiente comando:

    kubectl get nodes -o wide
    
  3. Para quitar el objeto Node, ejecuta el siguiente comando para anotar la máquina con errores correspondiente con la anotación baremetal.cluster.gke.io/force-remove. El valor de la anotación en sí no tiene importancia:

    kubectl --kubeconfig ADMIN_KUBECONFIG -n CLUSTER_NAMESPACE \
      annotate machine 10.200.0.8 baremetal.cluster.gke.io/force-remove=true
    
  4. Una vez que el controlador finaliza la conciliación de los cambios, el objeto Node ya no es visible. El objeto AdminOperator y la pila de observabilidad ahora informan un buen estado.