Repara nodos automáticamente

En esta página, se muestra cómo configurar la reparación automática de nodos en Google Kubernetes Engine (GKE).

Descripción general

La característica reparación automática de nodos de GKE te ayuda a mantener los nodos de tu clúster en buen estado y en ejecución. Cuando está habilitada, GKE realiza controles periódicos al estado de cada nodo en el clúster. Si un nodo falla en varias verificaciones de estado consecutivas durante un período prolongado, GKE inicia un proceso de reparación para ese nodo.

Criterios de reparación

GKE usa el estado del nodo para determinar si un nodo necesita reparación. Un nodo que informa un estado Ready se considera en buen estado. GKE activa una acción de reparación si un nodo presenta informes de mal estado consecutivos durante un determinado límite de tiempo. El mal estado puede indicar lo siguiente:

  • Un nodo informa un estado NotReady en verificaciones consecutivas durante el límite de tiempo determinado (alrededor de 10 minutos).
  • Un nodo no informa sobre ningún estado durante el límite de tiempo determinado (alrededor de 10 minutos).
  • El disco de arranque de un nodo se quedó sin espacio en el disco durante un período prolongado (alrededor de 30 minutos).

Proceso de reparación de nodos

Si GKE detecta que un nodo necesita reparación, se desvía el nodo y se lo vuelve a crear. GKE espera una hora para que se complete el desvío. Si el desvío no se completa, se cierra el nodo y se crea uno nuevo.

Si varios nodos requieren reparación, GKE podría repararlos en paralelo. GKE balancea la cantidad de reparaciones según el tamaño del clúster y la cantidad de nodos dañados. GKE reparará más nodos en paralelo en un clúster más grande, pero menos nodos a medida que aumente la cantidad de nodos en mal estado.

Si inhabilitas la reparación automática de nodos en cualquier momento durante el proceso de reparación, las reparaciones en curso no se cancelarán y continuarán para cualquier nodo que esté en reparación.

Historial de reparación de nodos

GKE genera una entrada de registro para eventos de reparación automática. Puedes verificar los registros con el comando gcloud container operations list.

Habilita la reparación automática de nodos

La reparación automática se habilita por grupo de nodos. Cuando creas un clúster, puedes habilitar o inhabilitar la reparación automática para el grupo de nodos predeterminado del clúster. Si creas grupos de nodos adicionales, puedes habilitar o inhabilitar la reparación automática de nodos para esos grupos de nodos, independientemente de la configuración de reparación automática del grupo de nodos predeterminado.

Puedes crear un clúster o grupo de nodos con la reparación automática habilitada mediante la herramienta de gcloud o con Google Cloud Console.

Crea un clúster con la reparación automática de nodos habilitada

gcloud

gcloud container clusters create cluster-name --zone compute-zone \
  --enable-autorepair

Console

  1. Visita el menú de Google Kubernetes Engine en Cloud Console.

    Ir al menú Google Kubernetes Engine

  2. Haz clic en el botón Crear clúster.

  3. Configura tu clúster como desees.

  4. En el panel de navegación, debajo del grupo de nodos que deseas modificar, haz clic en Nodos.

  5. Selecciona la casilla de verificación Habilitar reparación automática.

  6. Haz clic en Crear.

Crea un grupo de nodos con reparación automática habilitada

gcloud

gcloud container node-pools create pool-name --cluster cluster-name \
  --zone compute-zone \
  --enable-autorepair

Console

  1. Visita el menú de Google Kubernetes Engine en Cloud Console.

    Ir al menú Google Kubernetes Engine

  2. Haz clic en el botón Editar del clúster, que tiene forma de lápiz.

  3. Desde el menú de Grupos de nodos, Haz clic en Agregar grupo de nodo.

  4. Configura tu grupo de nodos como desees. Luego, haz clic en Más opciones para el grupo de nodos.

  5. Selecciona Habilitar reparación automática.

  6. Haz clic en Guardar para guardar la configuración del grupo de nodos.

  7. Haz clic en Guardar de nuevo para modificar el clúster.

Habilita la reparación automática para un grupo de nodos existente

gcloud

gcloud container node-pools update pool-name --cluster cluster-name \
  --zone compute-zone \
  --enable-autorepair

Console

  1. Visita el menú de Google Kubernetes Engine en Cloud Console.

    Ir al menú Google Kubernetes Engine

  2. Haz clic en el botón Editar del clúster, que tiene forma de lápiz.

  3. Desde el menú Grupos de nodos, haz clic en Más opciones para el grupo de nodos que deseas modificar.

  4. Selecciona Habilitar reparación automática.

  5. Haz clic en Guardar para guardar la configuración del grupo de nodos.

  6. Haz clic en Guardar de nuevo para modificar el clúster.

Inhabilita la reparación automática

Puedes inhabilitar la reparación automática de nodos para un grupo de nodos existente con la herramienta de gcloud o con Google Cloud Console.

gcloud

gcloud container node-pools update pool-name --cluster cluster-name \
  --zone compute-zone \
  --no-enable-autorepair

Console

  1. Visita el menú de Google Kubernetes Engine en Cloud Console.

    Ir al menú Google Kubernetes Engine

  2. Haz clic en el botón Editar del clúster, que tiene forma de lápiz.

  3. Desde el menú Grupos de nodos, haz clic en Más opciones para el grupo de nodos que deseas modificar.

  4. Anula la selección de Habilitar reparación automática.

  5. Haz clic en Guardar para guardar la configuración del grupo de nodos.

  6. Haz clic en Guardar de nuevo para modificar el clúster.

Próximos pasos