Eliminación forzada de nodos rotos en clústeres de Anthos alojados en equipos físicos

A veces, a fin de quitar un nodo dañado para su reparación o reemplazo, es posible que debas forzar su eliminación del clúster. La eliminación forzada solo quita el nodo dañado desde la perspectiva de la administración del clúster. La eliminación forzada omite los trabajos de limpieza de los componentes instalados en el nodo. En la recuperación del nodo, ejecuta bmctl reset nodes para limpiar los componentes instalados en el nodo a fin de que pueda reutilizarse.

Quita nodos de manera forzada

Los siguientes métodos se aplican a los nodos del plano de control y a los nodos trabajadores. Para los nodos del plano de control, los controladores en clústeres de Anthos alojados en equipos físicos también se encargan de la contabilidad de las membresías etcd.

Usa bmctl

Puedes usar bmctl para quitar el nodo del clúster. Por lo general, bmctl reset activa un trabajo de restablecimiento para intentar limpiar los componentes instalados en el nodo. Para quitar el nodo del clúster sin que se bloquee la limpieza de los paquetes instalados, puedes ejecutar el comando bmctl con la marca --force:

bmctl reset nodes --addresses NODE_IP --force --kubeconfig ADMIN_KUBECONFIG --cluster CLUSTER_NAME

Reemplaza lo siguiente:

  • NODE_IP: es la dirección IP del nodo que se restablecerá, como 10.200.0.8.

  • ADMIN_KUBECONFIG es la ruta al archivo kubeconfig del clúster de administrador.

  • CLUSTER_NAME: es el nombre del clúster de destino que contiene los nodos.

Usa kubectl

En los clústeres de Anthos en equipos físicos, puedes agregar una anotación a fin de marcar un nodo para forzar la eliminación.

Después de quitar el nodo del grupo de nodos superior, ejecuta el siguiente comando para anotar la máquina con errores correspondiente con la anotación baremetal.cluster.gke.io/force-remove. El valor de la anotación en sí no tiene importancia:

kubectl --kubeconfig ADMIN_KUBECONFIG -n CLUSTER_NAMESPACE \
  annotate machine 10.200.0.8 baremetal.cluster.gke.io/force-remove=true

Los clústeres de Anthos de equipos físicos quitan el nodo correctamente.