Entender el impacto de los fallos en Google Distributed Cloud

Google Distributed Cloud se ha diseñado para limitar el alcance de los fallos y priorizar las funciones que son esenciales para la continuidad del negocio. En este documento se explica cómo se ve afectada la funcionalidad de tus clústeres cuando se produce un fallo. Esta información puede ayudarte a priorizar las áreas en las que debes solucionar problemas.

La funcionalidad principal de Google Distributed Cloud incluye las siguientes categorías:

  • Ejecutar cargas de trabajo: las cargas de trabajo actuales pueden seguir ejecutándose. Este es el factor más importante para mantener la continuidad del negocio. Aunque tu clúster tenga un problema, las cargas de trabajo pueden seguir ejecutándose sin interrupciones.
  • Gestionar cargas de trabajo: puedes crear, actualizar y eliminar cargas de trabajo. Este es el segundo factor más importante a la hora de escalar cargas de trabajo cuando aumenta el tráfico, incluso si el clúster tiene algún problema.
  • Gestionar clústeres de usuarios: puedes gestionar nodos, actualizar, mejorar y eliminar clústeres de usuarios. Esto es menos importante que las consideraciones sobre el ciclo de vida de las aplicaciones. Si hay capacidad disponible en los nodos, la imposibilidad de modificar los clústeres de usuarios no afecta a las cargas de trabajo de los usuarios.
  • Gestionar clústeres de administrador: puedes actualizar y mejorar el clúster de administrador.
    • En las implementaciones que usan clústeres de administradores y de usuarios independientes, este es el aspecto menos importante, ya que el clúster de administradores no aloja ninguna carga de trabajo de usuario. Si tu clúster de administrador tiene un problema, las cargas de trabajo de tu aplicación en otros clústeres seguirán ejecutándose sin interrupciones.
    • Si usas otros modelos de implementación, como el híbrido o el independiente, el clúster de administrador ejecuta cargas de trabajo de aplicaciones. Si el clúster de administrador tiene un problema y el plano de control no funciona, tampoco podrás gestionar las cargas de trabajo de las aplicaciones ni los componentes del clúster de usuario.

En las siguientes secciones se usan estas categorías de funciones principales para describir el impacto de tipos específicos de situaciones de error. Cuando se produce una interrupción como parte de un escenario de fallo, también se indica la duración (orden) de la interrupción, si es posible.

Fallos de nodo

Un nodo de Google Distributed Cloud puede dejar de funcionar o no ser accesible en la red. En función del grupo de nodos y del clúster al que pertenezca la máquina que ha fallado, hay varios modos de fallo diferentes.

Nodo del plano de control

En la siguiente tabla se describe el comportamiento de los nodos que forman parte del plano de control de Google Distributed Cloud:

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si el fallo del nodo afecta al nodo de plano de control único de un clúster de usuarios que no tiene alta disponibilidad (HA) o a al menos la mitad de los nodos de plano de control de un clúster de usuarios con HA, se producirá una interrupción. Se pierde el quórum del plano de control del clúster de usuarios. Si el fallo del nodo afecta al nodo de plano de control único de un clúster de administrador sin alta disponibilidad o a al menos la mitad de los nodos de plano de control de un clúster de administrador con alta disponibilidad, se producirá una interrupción. Se ha perdido el quórum del plano de control del clúster de administrador. Si el fallo del nodo afecta al nodo de plano de control único de un clúster de administrador que no es de alta disponibilidad o a al menos la mitad de los nodos de plano de control de un clúster de administrador de alta disponibilidad, se producirá una interrupción. Se ha perdido el quórum del plano de control del clúster de administrador.
Recuperación Para obtener más información, consulta cómo recuperarse de la pérdida de quórum. Para obtener más información, consulta cómo recuperarse de la pérdida de quórum. Para obtener más información, consulta cómo recuperarse de la pérdida de quórum.
Prevención Despliega clústeres de usuario en modo de alta disponibilidad para minimizar la posibilidad de que se produzcan interrupciones. Implementa clústeres de administrador en modo de alta disponibilidad para minimizar la posibilidad de que se produzcan interrupciones. Implementa clústeres de administrador en modo de alta disponibilidad para minimizar la posibilidad de que se produzcan interrupciones.

Nodo de balanceador de carga

En la siguiente tabla se describe el comportamiento de los nodos que alojan los balanceadores de carga en Google Distributed Cloud. Estas directrices solo se aplican a los balanceadores de carga agrupados con el modo de capa 2. Para el balanceo de carga manual, consulta los modos de fallo de tus balanceadores de carga externos:

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Posible interrupción (varía) Posible interrupción (varía) Posible interrupción (varía) Posible interrupción (varía)
Explicación Si las cargas de trabajo externas dependen del balanceador de carga del plano de datos para comunicarse con las cargas de trabajo del clúster y solo tienes un nodo de balanceador de carga, se producirá una interrupción. La dirección IP virtual del plano de control del clúster de usuarios reside en un nodo del balanceador de carga. Si el grupo de nodos del balanceador de carga del clúster de usuarios no es de alta disponibilidad, se producirá una interrupción. La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de carga. Si el grupo de nodos del balanceador de carga del clúster de administrador no tiene alta disponibilidad, se producirá una interrupción. La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de carga. Si el grupo de nodos del balanceador de carga del clúster de administrador no tiene alta disponibilidad, se producirá una interrupción.
Recuperación

Si hay varios nodos de balanceador de carga, la conmutación por error de MetalLB se produce en cuestión de segundos.

Si no es de alta disponibilidad, considera la posibilidad de implementar nodos de balanceador de carga adicionales.

Si la alta disponibilidad está activada, la conmutación por error es automática y se produce en cuestión de segundos.

Si no es de alta disponibilidad, considera la posibilidad de implementar nodos de balanceador de carga adicionales.

Si la alta disponibilidad está activada, la conmutación por error es automática y se produce en cuestión de segundos.

Si no es de alta disponibilidad, considera la posibilidad de implementar nodos de balanceador de carga adicionales.

Si la alta disponibilidad está activada, la conmutación por error es automática y se produce en cuestión de segundos.

Si no es de alta disponibilidad, considera la posibilidad de implementar nodos de balanceador de carga adicionales.

Prevención Para minimizar la posibilidad de que se produzcan interrupciones, implementa grupos de nodos de balanceador de carga en modo de alta disponibilidad. Para minimizar la posibilidad de que se produzcan interrupciones, implementa grupos de nodos de balanceador de carga en modo de alta disponibilidad. Para minimizar la posibilidad de que se produzcan interrupciones, implementa grupos de nodos de balanceador de carga en modo de alta disponibilidad. Para minimizar la posibilidad de que se produzcan interrupciones, implementa grupos de nodos de balanceador de carga en modo de alta disponibilidad.

Nodo de trabajador

En la siguiente tabla se describe el comportamiento de los nodos de trabajo en Google Distributed Cloud:

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Posible interrupción (orden de segundos) Sin interrupciones Sin interrupciones Sin interrupciones
Explicación

Las Pods que se ejecutan en el nodo fallido se interrumpen y se reprograman automáticamente en otros nodos en buen estado con un tiempo de espera de desalojo predeterminado de 5 minutos.

Si las aplicaciones de usuario tienen capacidad de carga de trabajo de repuesto y se distribuyen en varios nodos, los clientes que implementen reintentos no podrán observar la interrupción.

Los Pods se reinician automáticamente en los nodos en buen estado.

Si el clúster no tiene capacidad de reserva, la interrupción puede durar hasta que se añadan nuevos nodos al clúster.

Recuperación Si el clúster no tiene capacidad de reserva, debes desplegar más nodos repartidos en varias zonas de fallos y mover las cargas de trabajo fallidas a los nuevos nodos.
Prevención

Despliega nodos que se extiendan por varias zonas de fallo.

Implementa cargas de trabajo con varias réplicas distribuidas en varias zonas de fallos para minimizar la posibilidad de que se produzcan interrupciones.

Fallo de almacenamiento

El almacenamiento en Google Distributed Cloud puede dejar de funcionar o no estar disponible en la red. En función del almacenamiento que falle, hay varios modos de fallo.

etcd

El contenido de los directorios /var/lib/etcd y /var/lib/etcd-events podría dañarse si el nodo se apaga de forma incorrecta o si se produce un error en el almacenamiento subyacente. En la siguiente tabla se describe el comportamiento de la función principal debido a errores de etcd:

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si las cargas de trabajo no dependen del plano de control de Kubernetes, seguirán funcionando sin interrupciones. Si etcd falla en un solo clúster de usuarios del plano de control o en al menos la mitad de los nodos del plano de control de un clúster de usuarios de alta disponibilidad, se producirá una interrupción. Se ha perdido el quórum del plano de control del clúster de usuarios. Si etcd falla en un solo clúster de administrador del plano de control o en al menos la mitad de los nodos del plano de control de un clúster de administrador de alta disponibilidad, se producirá una interrupción. Se ha perdido el quórum del plano de control del clúster de administrador. Si etcd falla en un solo clúster de administrador del plano de control o en al menos la mitad de los nodos del plano de control de un clúster de administrador de alta disponibilidad, se producirá una interrupción. Se ha perdido el quórum del plano de control del clúster de administrador.
Recuperación Para obtener más información, consulta cómo recuperarse de la pérdida de quórum. Para obtener más información, consulta cómo recuperarse de la pérdida de quórum. Para obtener más información, consulta cómo recuperarse de la pérdida de quórum.
Prevención Para minimizar la posibilidad de que se produzcan interrupciones, despliega clústeres de usuarios en modo de alta disponibilidad. Para minimizar la posibilidad de que se produzcan interrupciones, implementa clústeres de administrador en modo de alta disponibilidad. Para minimizar la posibilidad de que se produzcan interrupciones, implementa clústeres de administrador en modo de alta disponibilidad.

Aplicación de usuario PersistentVolume

En la siguiente tabla se describe el comportamiento de la función principal debido al fallo de un PersistentVolume:

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Posible interrupción (desconocida) Sin interrupciones Sin interrupciones Sin interrupciones
Explicación Las cargas de trabajo que usan el PersistentVolume are affected. fallido
Recuperación
Prevención Para minimizar la posibilidad de que se produzcan interrupciones, implementa la carga de trabajo del usuario en modo de alta disponibilidad.

Disco dañado de Fluent Bit

La corrupción de un disco de Fluent Bit no afecta a ninguna de las funciones principales, pero sí a la capacidad de recoger e inspeccionar registros en Google Cloud.

El evento SIGSEGV se puede observar a veces en los registros de stackdriver-log-forwarder. Este error puede deberse a que los registros almacenados en búfer del disco estén dañados.

Fluent Bit tiene un mecanismo para filtrar y descartar los fragmentos rotos. Esta función está disponible en la versión de fluent-bit (v1.8.3) que se usa en Google Distributed Cloud.

De LoadBalancer IP

Si todas las direcciones IP de los grupos asignados están ocupadas, los servicios de LoadBalancer que se creen no podrán adquirir una dirección IP de LoadBalancer. Este escenario afecta a la capacidad de los clientes del servicio para comunicarse con los servicios de LoadBalancer.

Para recuperarte de este agotamiento de direcciones IP, asigna más direcciones IP al grupo de direcciones modificando el recurso personalizado del clúster.

Vencimiento del certificado

Google Distributed Cloud genera una autoridad de certificación (CA) autofirmada durante el proceso de instalación del clúster. La CA tiene una validez de 10 años y es responsable de generar certificados, que caducan al cabo de un año. Rota los certificados periódicamente para evitar que el clúster deje de funcionar. Puedes rotar los certificados actualizando el clúster, que es el método recomendado. Si no puedes actualizar tu clúster, puedes realizar una rotación de CA bajo demanda. Para obtener más información sobre los certificados de clúster, consulta Certificados y requisitos de PKI en la documentación de Kubernetes.

Si los certificados del clúster han caducado, deben renovarse manualmente.

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación Si las cargas de trabajo de los usuarios no se comunican con los componentes del plano de control de Kubernetes, no habrá interrupciones. Si las autoridades de certificación de los clústeres de usuarios caducan, se producirá una interrupción. Si caducan las autoridades de certificación de los clústeres de administrador, se producirá una interrupción. Si caducan las autoridades de certificación de los clústeres de usuarios, se producirá una interrupción.
Recuperación

Sigue los pasos para renovar manualmente los certificados en el clúster de usuarios.

Sigue los pasos para renovar manualmente los certificados en el clúster de usuarios.

Sigue los pasos para renovar manualmente los certificados en el clúster de usuarios.

Prevención Configura monitorizaciones para la caducidad de los certificados. Puedes consultar un ejemplo de métrica kubelet_certificate_manager_server_expiration_seconds en la lista de métricas.

Errores de actualización

Ejecutar cargas de trabajo Gestionar cargas de trabajo Gestionar clústeres de usuarios Gestionar clústeres de administradores
Interrupción (duración) Sin interrupciones Sin interrupciones Posible interrupción (desconocida) Posible interrupción (desconocida)
Explicación

Si la actualización falla en el plano de control del clúster de usuarios, NO se interrumpirán las cargas de trabajo.

Si la actualización falla en un nodo de trabajo concreto, las cargas de trabajo de ese nodo se vaciarán y se trasladarán a otros nodos en buen estado si hay capacidad adicional en ellos.

La actualización se detendrá si se produce un error en alguno de los nodos del plano de control. El clúster sigue funcionando si la actualización falla y el clúster de usuarios tiene alta disponibilidad. Si la actualización falla en el plano de control del clúster de administrador, habrá una interrupción hasta que finalice la actualización. Si la actualización falla en el plano de control del clúster de administrador, habrá una interrupción hasta que finalice la actualización.
Recuperación Se puede volver a intentar la actualización. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudarla. Se puede volver a intentar la actualización. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudarla.
Prevención Para obtener más información, consulta cómo crear una copia de seguridad antes de actualizar. Para obtener más información, consulta cómo crear una copia de seguridad antes de actualizar.

Siguientes pasos

Para obtener más información sobre los problemas conocidos de los productos y las soluciones alternativas, consulta el artículo Problemas conocidos de Google Distributed Cloud.

Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud. También puedes consultar la sección Obtener asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes:

  • Requisitos para abrir un caso de asistencia.
  • Herramientas para ayudarte a solucionar problemas, como la configuración de tu entorno, los registros y las métricas.
  • Componentes admitidos.