クラスタの正常性を確認する

このページはプラットフォーム管理者を対象としています。

このページでは、クラスタ内のノード、システム Pod、ネットワーク接続のヘルス ステータスを確認する方法について説明します。

actl を使用してクラスタの状態を確認する

クラスタの状態は、次のコマンドを実行して確認します。

actl clusters baremetal check cluster CLUSTER_NAME --kubeconfig=ADMIN_KUBECONFIG

このコマンドは、以下を確認します。

  • kubelet の実行ステータス、containerd ステータス、ディスク容量、レジストリ ミラーの到達可能性など、クラスタ内のノードの健全性。その他
  • クラスタが管理クラスタである場合、anthos-cluster-operator など、ベアメタル システムの Pod の健全性。
  • ノード間のネットワーク接続(マスターノード間の L2 接続など)。

ヘルスチェックが成功した例を次に示します。

Please check the logs at actl-workspace/user-1/log/check-cluster-20210616-215509/check-cluster.log
[2021-06-16 21:55:16+0000] Waiting for health check job to finish... OK
[2021-06-16 21:55:46+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] add-ons
[2021-06-16 21:55:46+0000]  - [PASSED] kubernetes
[2021-06-16 21:55:46+0000]  - [PASSED] node-network
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.6
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.7
[2021-06-16 21:55:46+0000]  - [PASSED] 10.200.0.8
[2021-06-16 21:55:46+0000] Flushing logs... OK

ヘルスチェックの設定例を次に示します。

Please check the logs at actl-workspace/user-1/log/check-cluster-20210807-001826/check-cluster.log
[2021-08-07 00:18:32+0000] Waiting for health check job to finish... OK
[2021-08-07 00:20:52+0000] - Validation Category: machines, network, add-ons and kubernetes
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.6
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.6
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.7
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.7
[2021-08-07 00:20:52+0000]  - [FAILED] 10.200.0.8
      actl-workspace/user-1/log/check-cluster-20210807-001826/10.200.0.8
[2021-08-07 00:20:52+0000]  - [PASSED] add-ons
[2021-08-07 00:20:52+0000]  - [PASSED] kubernetes
[2021-08-07 00:20:52+0000]  - [PASSED] node-network
[2021-08-07 00:20:52+0000] Flushing logs... OK
[2021-08-07 00:20:52+0000] Error waiting for health check job: health check failed