Questa pagina è rivolta agli amministratori di piattaforma.
Questa pagina descrive come verificare lo stato di integrità di nodi, pod di sistema e connettività di rete nel cluster.
Controlla l'integrità del cluster mediante Actl
Esegui il comando seguente per verificare l'integrità del cluster:
actl clusters baremetal check cluster CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG
Il comando verifica quanto segue:
- Lo stato dei nodi nel cluster, ad esempio stato di esecuzione kubelet, stato containerizzato, capacità del disco, connettività del mirroring del registro e così via.
- Integrità di pod di sistemi Bare Metal come
anthos-cluster-operator
se il cluster è un cluster di amministrazione. - Connettività di rete tra nodi, ad esempio connettività L2 tra nodi master.
Ecco un esempio di un controllo di integrità riuscito:
Please check the logs at actl-workspace/user-1/log/check-cluster-20210616-215509/check-cluster.log
[2021-06-16 21:55:16+0000] Waiting for health check job to finish... OK
[2021-06-16 21:55:46+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-06-16 21:55:46+0000] - [PASSED] add-ons
[2021-06-16 21:55:46+0000] - [PASSED] kubernetes
[2021-06-16 21:55:46+0000] - [PASSED] node-network
[2021-06-16 21:55:46+0000] - [PASSED] 10.200.0.6
[2021-06-16 21:55:46+0000] - [PASSED] 10.200.0.7
[2021-06-16 21:55:46+0000] - [PASSED] 10.200.0.8
[2021-06-16 21:55:46+0000] Flushing logs... OK
Ecco un esempio di errore di controllo di integrità:
Please check the logs at actl-workspace/user-1/log/check-cluster-20210807-001826/check-cluster.log
[2021-08-07 00:18:32+0000] Waiting for health check job to finish... OK
[2021-08-07 00:20:52+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-08-07 00:20:52+0000] - [FAILED] 10.200.0.6
actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.6
[2021-08-07 00:20:52+0000] - [FAILED] 10.200.0.7
actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.7
[2021-08-07 00:20:52+0000] - [FAILED] 10.200.0.8
actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.8
[2021-08-07 00:20:52+0000] - [PASSED] add-ons
[2021-08-07 00:20:52+0000] - [PASSED] kubernetes
[2021-08-07 00:20:52+0000] - [PASSED] node-network
[2021-08-07 00:20:52+0000] Flushing logs... OK
[2021-08-07 00:20:52+0000] Error waiting for health check job: health check failed