Verificar integridade do cluster

Esta página é destinada a administradores da plataforma.

Nesta página, descrevemos como verificar o status de integridade de nós, pods do sistema e conectividade de rede no cluster.

Verificar a integridade do cluster usando actl

Para verificar a integridade do cluster, execute o seguinte comando:

actl clusters baremetal check cluster CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG

Esse comando permite verificar o seguinte:

  • A integridade dos nós no cluster, como status de execução do kubelet, status do contêiner, capacidade do disco, acessibilidade do espelho de registro etc.
  • A integridade dos pods do sistema Bare Metal, como anthos-cluster-operator, se o cluster for um cluster de administrador.
  • Conectividade de rede entre nós, por exemplo, conectividade L2 entre nós mestres.

Veja o exemplo de uma verificação de integridade bem-sucedida:

Please check the logs at actl-workspace/user-1/log/check-cluster-20210616-215509/check-cluster.log
[2021-06-16 21:55:16+0000] Waiting for health check job to finish... OK
[2021-06-16 21:55:46+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] add-ons
[2021-06-16 21:55:46+0000]  - [PASSED] kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] node-network
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.6
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.7
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.8
[2021-06-16 21:55:46+0000] Flushing logs... OK

Veja o exemplo de uma verificação de integridade com falha:

Please check the logs at actl-workspace/user-1/log/check-cluster-20210807-001826/check-cluster.log
[2021-08-07 00:18:32+0000] Waiting for health check job to finish... OK
[2021-08-07 00:20:52+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.6
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.6
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.7
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.7
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.8
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.8
[2021-08-07 00:20:52+0000]  - [PASSED] add-ons
[2021-08-07 00:20:52+0000]  - [PASSED] kubernetes
[2021-08-07 00:20:52+0000]  - [PASSED] node-network
[2021-08-07 00:20:52+0000] Flushing logs... OK
[2021-08-07 00:20:52+0000] Error waiting for health check job: health check failed