Comprende el impacto de las fallas en los clústeres de Anthos en Bare Metal

Los clústeres de Anthos en equipos físicos están diseñados para limitar el alcance de las fallas y priorizar la funcionalidad que es fundamental en la continuidad empresarial. En este documento, se explica cómo se ve afectada la funcionalidad de los clústeres cuando hay una falla. Esta información puede ayudarte a priorizar áreas para solucionar problemas.

La funcionalidad principal de los clústeres de Anthos en equipos físicos incluye las siguientes categorías:

  • Ejecuta cargas de trabajo: Las cargas de trabajo existentes pueden seguir ejecutándose. Esta es la consideración más importante para mantener la continuidad del negocio. Incluso si tu clúster tiene un problema, las cargas de trabajo existentes pueden seguir ejecutándose sin interrupción.
  • Administrar cargas de trabajo: puedes crear, actualizar y borrar cargas de trabajo. Esta es la segunda consideración más importante para escalar las cargas de trabajo cuando el tráfico aumenta, incluso si el clúster tiene un problema.
  • Administrar clústeres de usuarios: puedes administrar nodos, actualizar, actualizar y borrar clústeres de usuarios. Esto es menos importante que las consideraciones del ciclo de vida de la aplicación. Si hay capacidad disponible en los nodos existentes, la imposibilidad de modificar los clústeres de usuario no afecta a las cargas de trabajo del usuario.
  • Administrar clústeres de administrador: Puedes actualizar y actualizar el clúster de administrador.
    • Para las implementaciones que usan clústeres de administrador y de usuario independientes, esta es la consideración menos importante porque el clúster de administrador no aloja ninguna carga de trabajo del usuario. Si el clúster de administrador tiene un problema, las cargas de trabajo de la aplicación en otros clústeres se seguirán ejecutando sin interrupción.
    • Si usas otros modelos de implementación, como híbridos o independientes, el clúster de administrador ejecuta las cargas de trabajo de la aplicación. Si el clúster de administrador tiene un problema y el plano de control está inactivo, tampoco podrás administrar las cargas de trabajo de la aplicación ni los componentes del clúster de usuario.

En las siguientes secciones, se usan estas categorías de funcionalidad principal para describir el impacto de tipos específicos de situaciones de falla. Cuando se produce una interrupción como parte de una situación de falla, también se menciona la duración (orden) de la interrupción, siempre que sea posible.

Fallas de nodos

Un nodo en los clústeres de Anthos en Bare Metal puede dejar de funcionar o volverse inaccesible en la red. Según el grupo de nodos y el clúster del que sea parte la máquina con errores, existen varios modos de falla.

Nodo del plano de control

En la siguiente tabla, se describe el comportamiento de los nodos que forman parte del plano de control en los clústeres de Anthos alojados en Bare Metal:

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si la falla del nodo afecta al nodo del plano de control único en un clúster de usuario con alta disponibilidad (HA) o si no afecta a menos de la mitad de los nodos del plano de control en un clúster de usuario con alta disponibilidad, se produce una interrupción. Se perdió el quórum del plano de control del clúster de usuario. Si la falla del nodo afecta al nodo del plano de control único en un clúster de administrador con alta disponibilidad o si no afecta a menos de la mitad de los nodos del plano de control en un clúster de administrador con alta disponibilidad, se produce una interrupción. Se perdió el quórum del plano de control del clúster de administrador. Si la falla del nodo afecta al nodo del plano de control único en un clúster de administrador con alta disponibilidad o si no afecta a menos de la mitad de los nodos del plano de control en un clúster de administrador con alta disponibilidad, se produce una interrupción. Se perdió el quórum del plano de control del clúster de administrador.
Recuperación Para obtener más información, consulta cómo recuperarte de la pérdida de quórum. Para obtener más información, consulta cómo recuperarte de la pérdida de quórum. Para obtener más información, consulta cómo recuperarte de la pérdida de quórum.
Prevención Implementa clústeres de usuario en modo de HA para minimizar la posibilidad de interrupciones. Implementa clústeres de administrador en modo de HA para minimizar la posibilidad de interrupciones. Implementa clústeres de administrador en modo de HA para minimizar la posibilidad de interrupciones.

Nodo del balanceador de cargas

En la siguiente tabla, se describe el comportamiento de los nodos que alojan los balanceadores de cargas en clústeres de Anthos en equipos físicos. Esta guía solo se aplica a los balanceadores de cargas en paquetes con el modo de capa 2. Para el balanceo de cargas manual, consulta los modos de falla de tus balanceadores de cargas externos:

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Posible interrupción (varía) Posible interrupción (varía) Posible interrupción (varía) Posible interrupción (varía)
Explicación Si las cargas de trabajo externas dependen del balanceador de cargas del plano de datos para comunicarse con las cargas de trabajo en el clúster y solo tienes un nodo del balanceador de cargas, hay una interrupción. La dirección IP virtual del plano de control del clúster de usuario reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de usuario no tiene alta disponibilidad, hay una interrupción. La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de administrador no tiene alta disponibilidad, hay una interrupción. La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de administrador no tiene alta disponibilidad, hay una interrupción.
Recuperación

Si hay varios nodos del balanceador de cargas, la conmutación por error de MetalLB ocurre en unos segundos.

Si no es de alta disponibilidad, considere implementar nodos de balanceador de cargas adicionales.

Si es de alta disponibilidad, la conmutación por error es automática y se ordena en segundos.

Si no es de alta disponibilidad, considere implementar nodos de balanceador de cargas adicionales.

Si es de alta disponibilidad, la conmutación por error es automática y se ordena en segundos.

Si no es de alta disponibilidad, considere implementar nodos de balanceador de cargas adicionales.

Si es de alta disponibilidad, la conmutación por error es automática y se ordena en segundos.

Si no es de alta disponibilidad, considere implementar nodos de balanceador de cargas adicionales.

Prevención Para minimizar la posibilidad de interrupciones, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. Para minimizar la posibilidad de interrupciones, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. Para minimizar la posibilidad de interrupciones, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. Para minimizar la posibilidad de interrupciones, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad.

Nodo trabajador

En la siguiente tabla, se describe el comportamiento de los nodos trabajadores en clústeres de Anthos en equipos físicos:

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Posible interrupción (orden de segundos) Sin interrupciones Sin interrupciones Sin interrupciones
Explicación

El Pods que se ejecuta en el nodo con errores se interrumpe y se reprograma de manera automática en otros nodos en buen estado con un tiempo de espera de expulsión predeterminado de 5 minutos.

Si las aplicaciones de usuario tienen capacidad de carga de trabajo libre y se distribuyen en varios nodos, los clientes que implementan reintentos no podrán observar la interrupción.

Pods se reinician de forma automática en los nodos en buen estado.

Si el clúster no tiene capacidad libre, la interrupción podría durar hasta que se agreguen nodos nuevos al clúster.

Recuperación Si el clúster no tiene capacidad libre, debes implementar más nodos distribuidos en varias zonas de fallas y mover las cargas de trabajo con errores a los nodos nuevos.
Prevención

Implementa nodos que se distribuyen en varias zonas con fallas.

Implementa cargas de trabajo con varias réplicas distribuidas en varias zonas de fallas para minimizar la posibilidad de interrupción.

Falla de almacenamiento

Es posible que el almacenamiento en los clústeres de Anthos en Bare Metal deje de funcionar o se vuelva inaccesible en la red. Según el almacenamiento que falle, hay varios modos de falla diferentes.

etcd

El contenido de etcd podría dañarse debido a una falta de funcionamiento correcta del nodo o a la falla subyacente de almacenamiento. En la siguiente tabla, se describe el comportamiento de la funcionalidad principal debido a fallas de etcd:

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si las cargas de trabajo existentes no dependen del plano de control de Kubernetes, seguirán funcionando sin interrupciones. Si etcd falla en un solo clúster de usuario del plano de control o falla en no menos de la mitad de los nodos del plano de control en un clúster de usuario con alta disponibilidad, hay una interrupción. Se pierde el quórum del plano de control del clúster de usuario. Si etcd falla en un solo clúster de administrador del plano de control, o falla en no menos de la mitad de los nodos del plano de control en un clúster de administrador de alta disponibilidad, hay una interrupción. Se perdió el quórum del plano de control del clúster de administrador. Si etcd falla en un solo clúster de administrador del plano de control, o falla en no menos de la mitad de los nodos del plano de control en un clúster de administrador de alta disponibilidad, hay una interrupción. Se perdió el quórum del plano de control del clúster de administrador.
Recuperación Para obtener más información, consulta cómo recuperarte de la pérdida de quórum. Para obtener más información, consulta cómo recuperarte de la pérdida de quórum. Para obtener más información, consulta cómo recuperarte de la pérdida de quórum.
Prevención Para minimizar la posibilidad de interrupciones, implementa clústeres de usuario en modo de HA. Para minimizar la posibilidad de interrupciones, implementa clústeres de administrador en modo de alta disponibilidad. Para minimizar la posibilidad de interrupciones, implementa clústeres de administrador en modo de alta disponibilidad.

Aplicación del usuario PersistentVolume

En la siguiente tabla, se describe el comportamiento de la funcionalidad principal debido a la falla de un PersistentVolume:

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Posible interrupción (desconocida) Sin interrupciones Sin interrupciones Sin interrupciones
Explicación Las cargas de trabajo que usan el PersistentVolume are affected. con errores
Recuperación
Prevención Para minimizar la posibilidad de interrupciones, implementa la carga de trabajo del usuario en modo de alta disponibilidad.

Disco dañado dañado

La corrupción de un disco de Fluent Bit no afecta ninguna funcionalidad principal, pero sí afecta la capacidad de recopilar e inspeccionar registros en Google Cloud.

A veces, el evento SIGSEGV se puede observar desde los registros de stackdriver-log-forwarder. Este error puede deberse a los registros dañados en el búfer del disco.

Fluent Bit tiene un mecanismo para filtrar y descartar los fragmentos rotos. Esta función está disponible en la versión de fluent bit (v1.8.3) que se usa en los clústeres de Anthos en equipos físicos.

De LoadBalancer IP

Si todas las direcciones IP de los grupos asignados están ocupadas, los servicios de LoadBalancer recién creados no pueden adquirir una dirección IP de LoadBalancer. Esta situación afecta la capacidad de los clientes del servicio para comunicarse con los servicios de LoadBalancer.

Para recuperarse de este agotamiento de dirección IP, asigna más direcciones IP al grupo de direcciones mediante la modificación del recurso personalizado del clúster.

Vencimiento del certificado

Los certificados que se usan en la operación de clúster pueden vencer si el clúster no se actualizó durante un año y no se realizó ninguna rotación a pedido.

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Sin interrupción Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si las cargas de trabajo del usuario no se comunican con los componentes del plano de control de Kubernetes, no habrá interrupciones. Si las autoridades certificadas para los clústeres de usuario vencen, se producirá una interrupción. Si las autoridades certificadas vencen en los clústeres de administrador, se producirá una interrupción. Si las autoridades certificadas para los clústeres de usuario vencen, se producirá una interrupción.
Recuperación

Sigue los pasos para activar manualmente una rotación de certificado en el clúster de usuario.

Durante la rotación de CA, se producirá una interrupción.

Sigue los pasos para activar una rotación de certificado de forma manual en el clúster de administrador.

Durante la rotación de CA, se producirá una interrupción.

Sigue los pasos para activar una rotación de certificado de forma manual en el clúster de administrador.

Durante la rotación de CA, se producirá una interrupción.

Prevención Configura los monitores para el vencimiento del certificado. Puedes encontrar la métrica de ejemplo “kubelet_certificate_manager_server_expiration_seconds” en la lista de métricas.

Errores de actualización

Ejecuta cargas de trabajo Administrar cargas de trabajo Administra clústeres de usuarios Administrar clústeres de administrador
Interrupción (duración) Sin interrupción Sin interrupción Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación

Si la actualización falla en el plano de control del clúster de usuario, NO se interrumpirán las cargas de trabajo existentes.

Si la actualización falla en un nodo trabajador en particular, las cargas de trabajo en ese nodo se desviarán y se moverán a otros nodos en buen estado si hay capacidad adicional en ellos.

La actualización se detendrá si alguno de los nodos del plano de control no se actualiza. El clúster seguirá funcionando si la actualización falla si el clúster de usuario tiene alta disponibilidad. Si la actualización falla en el plano de control del clúster de administrador, se producirá una interrupción hasta que finalice la actualización. Si la actualización falla en el plano de control del clúster de administrador, se producirá una interrupción hasta que finalice la actualización.
Recuperación La actualización se puede reintentar. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudar. La actualización se puede reintentar. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudar.
Prevención Para obtener más información, consulta cómo crear una copia de seguridad antes de la actualización. Para obtener más información, consulta cómo crear una copia de seguridad antes de la actualización.

¿Qué sigue?

Para obtener más información sobre los problemas conocidos y las soluciones alternativas de los productos, consulta Clústeres de Anthos en problemas conocidos de equipos físicos.