Problemas conocidos de GKE en AWS

En esta página, se enumeran los problemas conocidos seleccionados para GKE en AWS y los pasos que puedes seguir para reducir su impacto.

Si necesitas asistencia adicional, comunícate con Atención al cliente de Cloud.

Operaciones

El escalador automático del clúster podría escalar verticalmente de forma incorrecta desde cero nodos

Las versiones afectadas por este problema son las siguientes:

  • Todas las versiones anteriores a 1.27
  • Versiones de 1.27 desde la 1.27.0-gke.0 hasta la 1.27.12-gke.800, sin incluirla
  • Versiones de la 1.28 desde la 1.28.0-gke.0 hasta la 1.28.8-gke.800, sin incluirla

El escalador automático del clúster no escala verticalmente de forma correcta desde cero nodos para los grupos de nodos con etiquetas personalizadas o taints.

Este problema se produce porque el escalador automático de clústeres de GKE en AWS no configuró las etiquetas del grupo de nodos ni las etiquetas de taint en el grupo de ajuste de escala automático del grupo de nodos correspondiente durante el aprovisionamiento del grupo de nodos. En el caso de los grupos de nodos sin nodos, el escalador automático del clúster no puede crear las plantillas de nodos de forma correcta debido a estas etiquetas faltantes. Esto podría llevar a decisiones de escalamiento incorrectas, como Pods que no se programan para los nodos aplicables o nodos que se aprovisionan y que no son realmente necesarios. Para obtener más información, consulta Configuración de detección automática.

Herramientas de redes

Tiempos de espera de la aplicación causados por fallas de inserción de tablas conntrack

Las versiones afectadas por este problema son las siguientes:

  • Todas las versiones de 1.23 a partir de 1.23.8-gke.1700.
  • Todas las versiones de 1.24 a partir de la versión 1.24.0-gke.0.
  • Versiones de 1.25 que van desde la 1.25.0-gke.0 hasta la 1.25.10-gke.1200, sin incluirla
  • Versiones desde 1.26.0-gke.0 hasta 1.26.4-gke.2200, sin incluirla

Los clústeres que se ejecutan en un SO Ubuntu que usa el kernel 5.15 o superior son susceptibles a fallas de inserción de tablas de netfilter (conntrack). Los errores de inserción pueden ocurrir incluso cuando la tabla conntrack tiene espacio para entradas nuevas. Las fallas se deben a cambios en el kernel 5.15 y versiones posteriores que restringen las inserciones de tablas según la longitud de la cadena.

Para ver si este problema te afecta, verifica las estadísticas del sistema de seguimiento de conexiones en el kernel con el siguiente comando:

sudo conntrack -S

La respuesta es similar a la que se muestra a continuación:

cpu=0       found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1       found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2       found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3       found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4       found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5       found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0

Si un valor de chaintoolong en la respuesta es un número distinto de cero, te verás afectado por este problema.

Solución

Si ejecutas la versión 1.26.2-gke.1001, actualiza a la versión 1.26.4-gke.2200 o una posterior.

Usabilidad

Error de clústeres inaccesibles se detectaron en la IU

Las versiones afectadas por este problema son 1.25.5-gke.1500 y 1.25.4-gke.1300.

Algunas plataformas de IU en la consola de Google Cloud no pueden autorizar al clúster y es posible que lo muestren como inaccesible.

Solución

Actualiza tu clúster al último parche disponible de la versión 1.25. Este problema se solucionó en la versión 1.25.5-gke.2000.

Errores de la API

Kubernetes 1.22 da de baja y reemplaza varias API. Si actualizaste tu clúster a la versión 1.22 o posterior, cualquier llamada que tu aplicación realice a una de las API obsoletas fallará.

Solución

Actualiza tu aplicación para reemplazar las llamadas a la API obsoletas por sus equivalentes más recientes.