Configura las actualizaciones de aumento de los grupos de nodos

En este documento, se describe cómo habilitar y administrar las actualizaciones de aumento de los grupos de nodos. Para obtener información sobre cómo funcionan las actualizaciones de aumento de los grupos de nodos, consulta Acerca de las actualizaciones de aumento.

Aspectos que debes tener en cuenta antes de ejecutar actualizaciones de aumento

Antes de ejecutar una actualización de aumento, ten en cuenta lo siguiente:

  • Las instancias adicionales creadas como parte de este paso de aumento pueden exceder tu límite de cuota de instancias de AWS. Si no tienes cuota suficiente y no se pueden aprovisionar estas instancias adicionales, es posible que la actualización falle.
  • Si max-unavailable-update se configura como 0, aún pueden ocurrir interrupciones en las cargas de trabajo a medida que los Pods se expulsan y se reprograman en los nodos más nuevos.
  • La cantidad máxima de nodos que se pueden actualizar de forma simultánea es igual a la suma de max-surge-update y max-unavailable-update, y está limitada a 20.

Habilita y configura actualizaciones de aumento

Para habilitar las actualizaciones de aumento, comunícate con la Asistencia de Google Cloud. Después de que el equipo de asistencia habilite la función, puedes asignar valores a los parámetros max-surge-update y max-unavailable-update cuando crees o actualices tu grupo de nodos:

Crear

gcloud container aws node-pools create NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \
    --max-surge-update MAX_SURGE \
    --max-unavailable-update MAX_UNAVAILABLE

Actualizar

gcloud container aws node-pools update NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \
    --max-surge-update MAX_SURGE \
    --max-unavailable-update MAX_UNAVAILABLE

Reemplaza lo siguiente:

  • NODE_POOL_NAME: Es el nombre del grupo de nodos que se actualizará.
  • CLUSTER_NAME: el nombre del clúster
  • GOOGLE_CLOUD_LOCATION: Es la región de Google Cloud compatible que administra el clúster. Por ejemplo, us-west1.
  • MAX_SURGE: Es la cantidad máxima de nodos adicionales que pueden crearse de forma temporal más allá del tamaño actual del grupo de nodos durante una actualización. Si ajustas este valor, puedes controlar cuántos nodos se actualizan de forma simultánea. La configuración predeterminada es 1, pero puedes establecerla en 0. Si configuras max-surge-update en un valor superior a 0, GKE on AWS crea nodos de aumento. Si se establece en 0, se evita su creación.
  • MAX_UNAVAILABLE: Es la cantidad máxima de nodos que pueden no estar disponibles de forma simultánea durante el proceso de actualización. Si se aumenta este valor, se pueden actualizar más nodos a la vez. El valor predeterminado es 0, pero se puede ajustar en sentido ascendente.

Verifica la configuración de actualizaciones de aumento en un grupo de nodos

Para ver la configuración de las actualizaciones de aumento de un grupo de nodos, ejecuta el siguiente comando:

gcloud alpha container aws node-pools describe NODE_POOL_NAME
    --cluster CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION \

Reemplaza lo siguiente:

  • NODE_POOL_NAME: es el nombre de tu grupo de nodos.
  • CLUSTER_NAME: el nombre del clúster
  • GOOGLE_CLOUD_LOCATION: Es la región de Google Cloud compatible que administra el clúster. Por ejemplo, us-west1.

Si el grupo de nodos tiene habilitadas las actualizaciones de aumento, el resultado de este comando muestra una sección etiquetada como surge_settings. En esta sección surge_settings, se muestran los valores de los parámetros max_surge y max_unavailable.

Administra las actualizaciones de aumento que están en curso

Puedes cancelar una actualización de aumento en curso, realizar una reversión de una actualización de aumento que falló o reanudar una actualización que se interrumpió.

Cancela (pausa) y reanuda una actualización de aumento

En GKE on AWS, “cancelar” una actualización de aumento significa pausarla. Si quieres obtener detalles para cancelar una actualización, consulta Cancela una operación de actualización.

En otras palabras, cancelar una actualización de aumento no revertirá la actualización. En su lugar, podría dejar el grupo de nodos en un estado actualizado de forma parcial con dos grupos de ajuste de escala automático: uno con nodos que ejecutan la configuración anterior y otro con nodos que ejecutan la configuración nueva. Para solucionar este problema, reanuda la actualización de aumento ejecutando de nuevo el comando de actualización con los mismos parámetros de destino que la operación interrumpida. El inicio de una actualización con diferentes parámetros del grupo de nodos se restringe hasta que concluye la actualización anterior.

Realiza la reversión de la actualización de aumento con errores

Puedes revertir un grupo de nodos a su estado original si una actualización de aumento se canceló o falló.

Aspectos que debes tener en cuenta antes de revertir una actualización de aumento

  • Solo puedes revertir un grupo de nodos habilitado para aumento que esté en un estado actualizado parcialmente (o el estado DEGRADED).
  • Una vez que se inicia una reversión en un grupo de nodos, no puedes cancelarla.
  • No puedes realizar más operaciones de actualización hasta que la operación de reversión finalice de forma correcta.
  • Solo puedes reintentar una reversión si falla.
  • No puedes revertir los grupos de nodos si se actualizaron correctamente.

Cómo realizar una reversión de una actualización de aumento con errores

Para revertir una operación de actualización incorrecta en el grupo de nodos, ejecuta el siguiente comando:

gcloud container aws node-pools rollback NODE_POOL_NAME
    --cluster CLUSTER_NAME

Reemplaza lo siguiente:

  • NODE_POOL_NAME: Es el nombre del grupo de nodos que se actualizará.
  • CLUSTER_NAME: el nombre del clúster

Cómo funciona la reversión

Cuando se inicia una reversión de forma interna, se inicia una nueva operación de actualización en el grupo de nodos. ("Internamente" significa que este proceso se ejecuta dentro del sistema y no requiere tu intervención). La operación revierte los nodos del grupo de nodos a su estado original según el criterio del mejor esfuerzo.

Los nodos que pertenecen al grupo de ajuste de escala automático anterior están desacordonados, y el escalador automático de clúster de este grupo está habilitado para permitir que las cargas de trabajo se programen en los nodos. Los nodos del grupo de nodos parcialmente actualizados en el nuevo grupo de ajuste de escala automático se acordonan, desvían y finalizan según la configuración de aumento que definiste en el intento inicial de actualización de aumento.

Administra las actualizaciones de aumento que no se pudieron realizar

Tienes tres opciones para abordar una actualización con errores:

  1. Continúa la actualización: Puedes continuar con la actualización con errores con la misma configuración del grupo de nodos de destino que el intento inicial fallido.
  2. Reversión: Usa el comando de reversión para revertir el grupo de nodos a su estado original.
  3. Modifica y reinicia: Si deseas cambiar los parámetros de la actualización de aumento, se debe borrar el grupo de nodos existente y, luego, volver a crearlo con la configuración nueva. Si quieres obtener instrucciones para borrar un grupo de nodos, consulta Borra un grupo de nodos.