En esta página, se muestra cómo resolver problemas con el administrador de controladores de Kubernetes (kube-controller-manager
) para Google Distributed Cloud.
Se perdió la elección de líder
Este error se puede observar en un clúster regional o en un plano de control replicado cuando kube-controller-manager
(KCM) se reinicia de forma inesperada. Este reinicio puede implicar que se cierre por sí mismo o que kubelet
lo reinicie. Es posible que los registros del KCM incluyan mensajes leaderelection lost
.
Esta situación puede ocurrir cuando el líder verifica si sigue liderando de forma activa como parte de la verificación de estado de KCM.
Si el líder ya no está a cargo o falla la verificación de la concesión, la verificación de estado informa que está en mal estado y se reinicia el líder.
Para recuperar el estado de la elección de líder, obtén los recursos Lease
del grupo coordination.k8s.io
:
Para ver todos los arrendamientos, ejecuta el siguiente comando
kubectl
:kubectl -n kube-system get lease
Para verificar el estado de una concesión determinada, como
lease/kube-controller-manager
, usa el siguiente comandokubectl describe
:kubectl -n kube-system describe lease/kube-controller-manager
En la sección
Events
, busca eventos deLeaderElection
. Revisa quién asume el liderazgo y cuándo sucede. En el siguiente ejemplo de resultado, se muestra que, cuando se apagó manualmente el primer nodo, el segundo asumió el liderazgo de forma instantánea:Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal LeaderElection 26m kube-controller-manager control-plane_056a86ec-84c5-48b8-b58d-86f3fde2ecdd became leader Normal LeaderElection 5m20s kube-controller-manager control-plane2_b0475d49-7010-4f03-8a9d-34f82ed60cd4 became leader
También puedes observar el proceso de pérdida y adquisición del liderazgo con la métrica
kubernetes.io/anthos/leader_election_master_status
agrupada porname
.
El proceso de elección de líder solo se produce si falla el líder actual. Para confirmar la falla, consulta las métricas kubernetes.io/anthos/container/uptime
y kubernetes.io/anthos/container/restart_count
filtradas por un container_name
de kube-controller-manager
.
Si experimentas problemas con el proceso de elección de líder que se ejecuta o falla de forma repetida, revisa las siguientes consideraciones de corrección:
- Si KCM se reinicia cada pocos minutos o menos, revisa los registros de KCM para ver si hay solicitudes fallidas al servidor de la API. Las solicitudes fallidas indican problemas de conectividad entre los componentes o que parte del servicio está sobrecargado.
- Si el administrador del controlador no se puede comunicar con el servidor de la API durante demasiado tiempo, la renovación falla y la instancia de KCM pierde su liderazgo, incluso si se restablece la conexión más adelante.
- Si el plano de control se replica, el nuevo líder debería asumir el control sin problemas y sin tiempo de inactividad. No es necesario que realices ninguna acción. El plano de control de un clúster de múltiples nubes o regional siempre se replica. No intentes inhabilitar la elección de líder para un plano de control replicado. No puedes volver a habilitar la elección de líder sin tiempo de inactividad.
¿Qué sigue?
Si necesitas asistencia adicional, comunícate con Atención al cliente de Cloud.
También puedes consultar Cómo obtener asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes:
- Requisitos para abrir un caso de asistencia
- Herramientas para ayudarte a solucionar problemas, como registros y métricas
- Componentes, versiones y funciones compatibles de Google Distributed Cloud para VMware (solo software).