ノードの問題の検出機能

ノードの問題の検出機能は、ノードの状態をモニタリングし、ハードウェア、カーネル、コンテナランタイムなどの一般的なノードの問題を検出するオープンソースライブラリです。Google Distributed Cloud では、各ノードの systemd サービスとして実行されます。

Google Distributed Cloud リリース 1.10.0 以降では、ノードの問題の検出機能はデフォルトで有効になっています。

さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。

検出できる問題

ノードの問題の検出機能は次のような問題を検出できます。

コンテナランタイムの問題（ランタイムデーモンの無応答など）
ハードウェアの問題（CPU、メモリ、ディスク障害など）
カーネルの問題（カーネルのデッドロック状態やファイルシステムの破損など）

これはノード上で実行され、NodeCondition または Event として Kubernetes API サーバーに問題を報告します。NodeCondition はノードでの Pod の実行が不能になる問題です。一方、Event は一時的な問題で、Pod への影響は限定的であるものの、要報告と見なされた問題です。

ノードの問題の検出機能によって検出される NodeConditions には次のようなものがあります。

KernelDeadlock
ReadonlyFilesystem
FrequentKubeletRestart
FrequentDockerRestart
FrequentContainerdRestart
FrequentUnregisterNetDevice
KubeletUnhealthy
ContainerRuntimeUnhealthy
CorruptDockerOverlay2

ノードの問題の検出機能によって報告される Events の種類を以下に例示します。

Warning TaskHung node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: task docker:7 blocked for more than 300 seconds.
Warning KernelOops node/vm-worker-1-user-a12fabb4a99cb92-ddfce8832fd90f6f.lab.anthos kernel: BUG: unable to handle kernel NULL pointer dereference at 00x0.

検出された問題を確認する方法

ノードで次の kubectl describe コマンドを実行して、NodeConditions と Events を検索します。

kubectl --kubeconfig=KUBECONFIG_PATH describe node NODE_NAME

このコマンドで、次のエントリを環境に固有の情報に置き換えます。

KUBECONFIG_PATH: ターゲットクラスタの kubeconfig ファイルのパス。通常、kubeconfig ファイルのパスは bmctl-workspace/CLUSTER_NAME/CLUSTER_NAME-kubeconfig です。ただし、WORKSPACE_DIR フラグを使ってワークスペースを指定した場合、パスは WORKSPACE_DIR/CLUSTER_NAME/CLUSTER_NAME-kubeconfig になります。
NODE_NAME: 状態の情報を取得するノードの名前。