Configura actualizaciones de aumento de grupos de nodos

En este documento, se describe cómo habilitar y administrar las actualizaciones de aumento de los grupos de nodos. Para obtener información sobre cómo funcionan las actualizaciones de aumento de los grupos de nodos, consulta Información sobre las actualizaciones de aumento.

Aspectos que debes tener en cuenta antes de ejecutar actualizaciones de aumento

Antes de ejecutar una actualización de aumento, ten en cuenta lo siguiente:

  • Las instancias adicionales creadas como parte de este paso de aumento podrían exceder el límite de cuota de instancias de AWS. Si no tienes suficiente cuota y estas instancias adicionales no se pueden aprovisionar, la actualización podría fallar.
  • Si max-unavailable-update se configura en 0, las interrupciones en las cargas de trabajo aún pueden ocurrir a medida que los Pods se expulsan y se reprograman en los nodos más nuevos.
  • La cantidad máxima de nodos que se pueden actualizar de forma simultánea es igual a la suma de max-surge-update y max-unavailable-update, y se limita a 20.

Habilita y configura las actualizaciones de aumento

Para habilitar las actualizaciones de aumento, comunícate con la Asistencia de Google Cloud. Después de que el equipo de asistencia al cliente habilita la función, puedes asignar valores a los parámetros max-surge-update y max-unavailable-update cuando creas o actualizas el grupo de nodos:

Crear

gcloud container aws node-pools create NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \
    --max-surge-update MAX_SURGE \
    --max-unavailable-update MAX_UNAVAILABLE

Actualizar

gcloud container aws node-pools update NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \
    --max-surge-update MAX_SURGE \
    --max-unavailable-update MAX_UNAVAILABLE

Reemplaza lo siguiente:

  • NODE_POOL_NAME: el nombre del grupo de nodos que se actualizará.
  • CLUSTER_NAME: el nombre del clúster
  • GOOGLE_CLOUD_LOCATION: la región de Google Cloud compatible con la que se administra tu clúster Por ejemplo, us-west1.
  • MAX_SURGE: la cantidad máxima de nodos adicionales que se pueden crear de forma temporal más allá del tamaño actual del grupo de nodos durante una actualización. Si ajustas este valor, puedes controlar cuántos nodos se actualizan de manera simultánea. La configuración predeterminada es 1, pero puedes establecerla en 0. Si estableces max-surge-update en un valor mayor que 0, GKE en AWS crea nodos de aumento. establecerlo en 0 impide su creación.
  • MAX_UNAVAILABLE: la cantidad máxima de nodos que pueden estar no disponibles de forma simultánea durante el proceso de actualización. Si aumentas este valor, se pueden actualizar más nodos de forma simultánea. El valor predeterminado es 0, pero se puede ajustar hacia arriba.

Verifica la configuración de actualización de aumento en un grupo de nodos

Para ver la configuración de actualización de aumento de un grupo de nodos, ejecuta el siguiente comando:

gcloud alpha container aws node-pools describe NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \

Reemplaza lo siguiente:

  • NODE_POOL_NAME: es el nombre de tu grupo de nodos.
  • CLUSTER_NAME: el nombre del clúster
  • GOOGLE_CLOUD_LOCATION: la región de Google Cloud compatible con la que se administra tu clúster Por ejemplo, us-west1.

Si el grupo de nodos tiene habilitadas las actualizaciones de aumento, el resultado de este comando muestra una sección etiquetada como surge_settings. En esta sección surge_settings, se muestran los valores de los parámetros max_surge y max_unavailable.

Administra las actualizaciones de aumento que están en curso

Puedes cancelar una actualización de aumento en curso, realizar una reversión de una actualización de aumento que falló o reanudar una actualización que se interrumpió.

Cancela (pausa) y reanuda una actualización de aumento

En GKE en AWS, “cancelar” una actualización de aumento en realidad significa pausarla. Si deseas obtener detalles para cancelar una actualización, consulta Cancela una operación de actualización.

En otras palabras, cancelar una actualización de aumento no revierte la actualización. En su lugar, podría dejar el grupo de nodos en un estado parcialmente actualizado con dos grupos de ajuste de escala automático: uno con nodos que ejecutan la configuración anterior y otro con nodos que ejecutan la configuración nueva. Para eliminar este problema, reanuda la actualización de aumento mediante la ejecución del comando de actualización nuevamente, con los mismos parámetros de destino que la operación interrumpida. Iniciar una actualización con parámetros diferentes de grupo de nodos está restringido hasta que finalice la actualización anterior.

Realiza la reversión de una actualización de aumento con errores

Puedes revertir un grupo de nodos a su estado original si se canceló o falló una actualización de aumento.

Aspectos que debes tener en cuenta antes de revertir una actualización de aumento

  • Solo puedes revertir un grupo de nodos habilitado para el aumento que esté en un estado actualizado de forma parcial (o el estado DEGRADED).
  • Una vez que se inicia una reversión en un grupo de nodos, no puedes cancelarla.
  • No puedes realizar más operaciones de actualización hasta que la operación de reversión finalice de forma correcta.
  • Solo puedes reintentar una reversión si falla.
  • No puedes revertir los grupos de nodos una vez que se actualizaron correctamente.

Cómo realizar una reversión de una actualización de aumento con errores

Para revertir una operación de actualización incorrecta en el grupo de nodos, ejecuta el siguiente comando:

gcloud container aws node-pools rollback NODE_POOL_NAME
    --cluster CLUSTER_NAME

Reemplaza lo siguiente:

  • NODE_POOL_NAME: el nombre del grupo de nodos que se actualizará.
  • CLUSTER_NAME: el nombre del clúster

Cómo funciona la reversión

El inicio interno de una reversión inicia una nueva operación de actualización en el grupo de nodos. (Aquí, “interno” significa que este proceso se ejecuta dentro del propio sistema y no requiere tu intervención). La operación revierte los nodos del grupo de nodos a su estado original en base a lo posible.

Los nodos que pertenecen al grupo de ajuste de escala automático anterior están desacordonados y el escalador automático del clúster de este grupo está habilitado para permitir que se programen cargas de trabajo en los nodos. Los nodos del grupo de nodos que se actualizaron de forma parcial en el grupo de ajuste de escala automático nuevo se acordonan, vacían y finalizan según la configuración de aumento que definiste en el intento inicial de actualización del aumento.

Administra las actualizaciones de aumento fallidas

Tienes tres opciones para abordar una actualización con errores:

  1. Continúa con la actualización: puedes continuar con la actualización con errores con la misma configuración del grupo de nodos de destino que el intento inicial fallido.
  2. Reversión: usa el comando de reversión para revertir el grupo de nodos a su estado original.
  3. Modifica y reinicia: si deseas cambiar los parámetros para la actualización de aumento, el grupo de nodos existente debe borrarse y, luego, volver a crearse con la configuración nueva. Para obtener instrucciones sobre cómo borrar un grupo de nodos consulta Borrar un grupo de nodos.