Verifica el estado del clúster

Esta página está destinada a los administradores de la plataforma.

En esta página, se describe cómo verificar el estado de los nodos, los Pods del sistema y la conectividad de red en el clúster.

Verifica el estado del clúster mediante actl

Ejecuta el siguiente comando para verificar el estado de tu clúster:

actl clusters baremetal check cluster CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG

El comando verifica lo siguiente:

  • El estado de los nodos en el clúster, como el estado de ejecución de kubelet, el estado de containerd, la capacidad del disco y la accesibilidad de la duplicación de registro, etcétera.
  • El estado de los Pods del sistema de equipos físicos, como anthos-cluster-operator, si el clúster es un administrador.
  • Conectividad de red entre nodos, por ejemplo, conectividad de capa 2 entre nodos principales.

Este es un ejemplo de una verificación de estado exitosa:

Please check the logs at actl-workspace/user-1/log/check-cluster-20210616-215509/check-cluster.log
[2021-06-16 21:55:16+0000] Waiting for health check job to finish... OK
[2021-06-16 21:55:46+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] add-ons
[2021-06-16 21:55:46+0000]  - [PASSED] kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] node-network
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.6
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.7
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.8
[2021-06-16 21:55:46+0000] Flushing logs... OK

A continuación, se muestra un ejemplo de un error de verificación de estado:

Please check the logs at actl-workspace/user-1/log/check-cluster-20210807-001826/check-cluster.log
[2021-08-07 00:18:32+0000] Waiting for health check job to finish... OK
[2021-08-07 00:20:52+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.6
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.6
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.7
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.7
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.8
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.8
[2021-08-07 00:20:52+0000]  - [PASSED] add-ons
[2021-08-07 00:20:52+0000]  - [PASSED] kubernetes
[2021-08-07 00:20:52+0000]  - [PASSED] node-network
[2021-08-07 00:20:52+0000] Flushing logs... OK
[2021-08-07 00:20:52+0000] Error waiting for health check job: health check failed