Google Distributed Cloud está diseñado para limitar el alcance de las fallas y priorizar la funcionalidad que es fundamental para la continuidad empresarial. En este documento, se explica cómo se ve afectada la funcionalidad de tus clústeres cuando se produce una falla. Esta información puede ayudarte a priorizar las áreas para solucionar problemas.
Si necesitas asistencia adicional, comunícate con Atención al cliente de Cloud.
La funcionalidad principal de Google Distributed Cloud incluye las siguientes categorías:
- Ejecutar cargas de trabajo: Las cargas de trabajo existentes pueden seguir ejecutándose. Esta es la consideración más importante para mantener la continuidad empresarial. Incluso si tu clúster tiene un problema, es posible que las cargas de trabajo existentes sigan ejecutándose sin interrupciones.
- Administrar cargas de trabajo: Puedes crear, actualizar y borrar cargas de trabajo. Esta es la segunda consideración más importante para escalar las cargas de trabajo cuando aumenta el tráfico, incluso si el clúster tiene un problema.
- Administrar clústeres de usuario: Puedes administrar nodos, actualizar y borrar clústeres de usuario. Esto es menos importante que las consideraciones del ciclo de vida de la aplicación. Si hay capacidad disponible en los nodos existentes, la imposibilidad de modificar clústeres de usuarios no afecta las cargas de trabajo de los usuarios.
- Administra clústeres de administrador: Puedes actualizar el clúster de administrador.
- En el caso de las implementaciones que usan clústeres de administrador y de usuario separados, esta es la consideración menos importante, ya que el clúster de administrador no aloja ninguna carga de trabajo de usuario. Si tu clúster de administrador tiene un problema, las cargas de trabajo de tu aplicación en otros clústeres seguirán ejecutándose sin interrupciones.
- Si usas otros modelos de implementación, como híbrido o independiente, el clúster de administración ejecuta cargas de trabajo de la aplicación. Si el clúster de administrador tiene un problema y el plano de control está inactivo, tampoco podrás administrar las cargas de trabajo de la aplicación ni los componentes del clúster de usuarios.
En las siguientes secciones, se usan estas categorías de funciones principales para describir el impacto de tipos específicos de situaciones de fallas. Cuando hay una interrupción como parte de una situación de falla, también se anota la duración (orden) de la interrupción, siempre que sea posible.
Fallas de nodos
Es posible que un nodo de Google Distributed Cloud deje de funcionar o que no se pueda acceder a él en la red. Según el grupo de nodos y el clúster del que forma parte la máquina con errores, existen varios modos de falla diferentes.
Nodo del plano de control
En la siguiente tabla, se describe el comportamiento de los nodos que forman parte del plano de control en Google Distributed Cloud:
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Sin interrupciones | Posible interrupción (desconocido) | Posible interrupción (desconocido) | Posible interrupción (desconocido) |
Explicación | — | Si la falla del nodo afecta el único nodo del plano de control en un clúster de usuario que no tiene alta disponibilidad (HA) o si afecta al menos la mitad de los nodos del plano de control en un clúster de usuario con alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de usuario. | Si la falla del nodo afecta el único nodo del plano de control en un clúster de administrador que no tiene alta disponibilidad o si afecta al menos la mitad de los nodos del plano de control en un clúster de administrador con alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de administrador. | Si la falla del nodo afecta el único nodo del plano de control en un clúster de administrador que no tiene alta disponibilidad o si afecta al menos la mitad de los nodos del plano de control en un clúster de administrador con alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de administrador. |
Recuperación | — | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. |
Prevención | — | Implementa clústeres de usuario en modo de alta disponibilidad para minimizar las posibilidades de interrupción. | Implementa clústeres de administrador en modo HA para minimizar las posibilidades de interrupción. | Implementa clústeres de administrador en modo HA para minimizar las posibilidades de interrupción. |
Nodo del balanceador de cargas
En la siguiente tabla, se describe el comportamiento de los nodos que alojan los balanceadores de cargas en Google Distributed Cloud. Esta guía solo se aplica a los balanceadores de cargas empaquetados con el modo de capa 2. Para el balanceo de cargas manual, consulta los modos de falla de tus balanceadores de cargas externos:
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Posible interrupción (varía) | Posible interrupción (varía) | Posible interrupción (varía) | Posible interrupción (varía) |
Explicación | Si las cargas de trabajo externas dependen del balanceador de cargas del plano de datos para comunicarse con las cargas de trabajo del clúster y solo tienes un nodo de balanceador de cargas, se produce una interrupción. | La dirección IP virtual del plano de control del clúster de usuario reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de usuario no tiene alta disponibilidad, habrá interrupción. | La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de administrador no tiene alta disponibilidad, se produce una interrupción. | La dirección IP virtual del plano de control del clúster de administrador reside en un nodo del balanceador de cargas. Si el grupo de nodos del balanceador de cargas del clúster de administrador no tiene alta disponibilidad, se produce una interrupción. |
Recuperación | Si hay varios nodos de balanceador de cargas, la conmutación por error de MetalLB se produce en unos segundos. Si no es HA, considera implementar nodos de balanceador de cargas adicionales. |
Si se habilita la HA, la conmutación por error es automática y se realiza en segundos. Si no es HA, considera implementar nodos de balanceador de cargas adicionales. |
Si se habilita la HA, la conmutación por error es automática y se realiza en segundos. Si no es HA, considera implementar nodos de balanceador de cargas adicionales. |
Si se habilita la HA, la conmutación por error es automática y se realiza en segundos. Si no es HA, considera implementar nodos de balanceador de cargas adicionales. |
Prevención | Para minimizar las posibilidades de interrupción, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. | Para minimizar las posibilidades de interrupción, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. | Para minimizar las posibilidades de interrupción, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. | Para minimizar las posibilidades de interrupción, implementa grupos de nodos del balanceador de cargas en modo de alta disponibilidad. |
Nodo trabajador
En la siguiente tabla, se describe el comportamiento de los nodos trabajador en Google Distributed Cloud:
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Posible interrupción (orden de segundos) | Sin interrupciones | Sin interrupciones | Sin interrupciones |
Explicación | Los Si las aplicaciones de usuario tienen capacidad de carga de trabajo libre y se distribuyen entre varios nodos, la interrupción no se puede observar para los clientes que implementan reintentos. Los |
— | — | — |
Recuperación | Si el clúster no tiene capacidad disponible, debes implementar más nodos distribuidos en varias zonas de fallas y mover las cargas de trabajo con errores a los nodos nuevos. | — | — | — |
Prevención | Implementa nodos que se distribuyan en varias zonas de fallas. Implementa cargas de trabajo con varias réplicas distribuidas en varias zonas de fallas para minimizar las posibilidades de interrupción. |
— | — | — |
Falla de almacenamiento
Es posible que el almacenamiento en Google Distributed Cloud deje de funcionar o que no se pueda acceder a él en la red. Según el almacenamiento que falle, existen varios modos de falla diferentes.
etcd
El contenido de los directorios /var/lib/etcd
y /var/lib/etcd-events
podría dañarse si se apaga el nodo de forma incorrecta o si se produce una falla subyacente del almacenamiento. En la siguiente tabla, se describe el comportamiento de la funcionalidad principal debido a fallas de etcd
:
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Sin interrupciones | Posible interrupción (desconocido) | Posible interrupción (desconocido) | Posible interrupción (desconocido) |
Explicación | Si las cargas de trabajo existentes no dependen del plano de control de Kubernetes, seguirán funcionando sin interrupciones. | Si etcd falla en un solo clúster de usuario de plano de control o falla en no menos de la mitad de los nodos del plano de control en un clúster de usuario con alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de usuario. |
Si etcd falla en un solo clúster de administrador de plano de control o falla en no menos de la mitad de los nodos del plano de control en un clúster de administrador de alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de administrador. |
Si etcd falla en un solo clúster de administrador de plano de control o falla en no menos de la mitad de los nodos del plano de control en un clúster de administrador de alta disponibilidad, se produce una interrupción. Se pierde el quórum del plano de control del clúster de administrador. |
Recuperación | — | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. | Para obtener más información, consulta cómo recuperarse de la pérdida del quórum. |
Prevención | — | Para minimizar la posibilidad de interrupción, implementa clústeres de usuario en modo de HA. | Para minimizar las posibilidades de interrupción, implementa clústeres de administrador en modo de alta disponibilidad. | Para minimizar las posibilidades de interrupción, implementa clústeres de administrador en modo de alta disponibilidad. |
Aplicación del usuario PersistentVolume
En la siguiente tabla, se describe el comportamiento de la funcionalidad principal debido al error de un PersistentVolume
:
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Posible interrupción (desconocido) | Sin interrupciones | Sin interrupciones | Sin interrupciones |
Explicación | Las cargas de trabajo que usan el PersistentVolume con errores |
— | — | — |
Recuperación | — | — | — | — |
Prevención | Para minimizar las posibilidades de interrupción, implementa la carga de trabajo del usuario en el modo de alta disponibilidad. | — | — | — |
Disco dañado de Fluent Bit
La corrupción de un disco de Fluent Bit no afecta a ninguna funcionalidad principal, pero sí a la capacidad de recopilar e inspeccionar registros en Google Cloud.
A veces, el evento SIGSEGV
se puede observar en los registros de stackdriver-log-forwarder
. Este error puede deberse a los registros dañados en el búfer del disco.
Fluent Bit tiene un mecanismo para filtrar y descartar los fragmentos rotos. Esta función está disponible en la versión de Fluent-bit (v1.8.3) que se usa en Google Distributed Cloud.
IP de LoadBalancer
agotada
Si todas las direcciones IP de los grupos asignados están ocupadas, los servicios de LoadBalancer
creados recientemente no pueden adquirir una dirección IP de LoadBalancer
. Esta situación afecta la capacidad de los clientes del servicio para comunicarse con los servicios de LoadBalancer
.
Para recuperarte de este agotamiento de direcciones IP, asigna más direcciones IP al grupo de direcciones modificando el recurso personalizado del clúster.
Vencimiento del certificado:
Google Distributed Cloud genera una autoridad certificadora (AC) autofirmada durante el proceso de instalación del clúster. La AC tiene un vencimiento de 10 años y es responsable de generar certificados, que vencen después de un año. Rota los certificados con regularidad para evitar el tiempo de inactividad del clúster. Para rotar los certificados, puedes actualizar el clúster, que es el método recomendado. Si no puedes actualizar el clúster, puedes realizar una rotación de AC a pedido. Para obtener más información sobre los certificados de clúster, consulta Certificados y requisitos de la PKI en la documentación de Kubernetes.
Si los certificados del clúster vencieron, deben renovarse de forma manual.
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Sin interrupciones | Posible interrupción (desconocido) | Posible interrupción (desconocido) | Posible interrupción (desconocido) |
Explicación | Si las cargas de trabajo del usuario no se comunican con los componentes del plano de control de Kubernetes, no habrá interrupciones. | Si vencen las autoridades certificadoras de los clústeres de usuarios, se producirá una interrupción. | Si vencen las autoridades certificadoras de los clústeres de administrador, se producirá una interrupción. | Si vencen las autoridades certificadoras de los clústeres de usuarios, se produce una interrupción. |
Recuperación | — | Sigue los pasos para renovar los certificados de forma manual en el clúster de usuarios. |
Sigue los pasos para renovar los certificados de forma manual en el clúster de usuarios. |
Sigue los pasos para renovar los certificados de forma manual en el clúster de usuarios. |
Prevención | Configura monitores para el vencimiento de los certificados. Puedes encontrar una métrica de ejemplo kubelet_certificate_manager_server_expiration_seconds en la lista de métricas. |
Errores de actualización
Ejecuta cargas de trabajo | Administrar cargas de trabajo | Administra clústeres de usuarios | Administrar clústeres de administrador | |
---|---|---|---|---|
Interrupción (duración) | Sin interrupciones | Sin interrupciones | Posible interrupción (desconocido) | Posible interrupción (desconocido) |
Explicación | Si la actualización falla en el plano de control del clúster de usuario, NO se interrumpen las cargas de trabajo existentes. Si la actualización falla en un nodo trabajador en particular, las cargas de trabajo de ese nodo se desviarán y se trasladarán a otros nodos en buen estado si hay capacidad adicional en ellos. |
La actualización se detendrá si no se puede actualizar alguno de los nodos del plano de control. El clúster seguirá funcionando si la actualización falla si el clúster de usuario tiene HA. | Si la actualización falla en el plano de control del clúster de administrador, se producirá una interrupción hasta que finalice. | Si la actualización falla en el plano de control del clúster de administrador, se producirá una interrupción hasta que finalice. |
Recuperación | — | — | Se puede volver a intentar la actualización. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudar. | Se puede volver a intentar la actualización. Para obtener más información, consulta cómo diagnosticar problemas de actualización y reanudar. |
Prevención | — | — | Para obtener más información, consulta cómo crear una copia de seguridad antes de la actualización. | Para obtener más información, consulta cómo crear una copia de seguridad antes de la actualización. |
¿Qué sigue?
Para obtener más información sobre los problemas conocidos del producto y las soluciones alternativas, consulta Problemas conocidos de Google Distributed Cloud.
<>