ノードの自動修復とヘルスチェック

GKE on VMware では、定期的なヘルスチェックとノードの自動修復がデフォルトで有効になっています。

ノードの自動修復機能は、クラスタ内の異常なノードを継続的に検出して修復します。

定期的なヘルスチェックを 15 分ごとに実施します。このチェックは、gkectl diagnose cluster で実施されるチェックと同じです。結果は、管理クラスタ内のクラスタオブジェクトのログとイベントとして表示されます。

管理クラスタとユーザークラスタに、ノードの自動修復に使用できる追加の IP アドレスがあることを確認します。

異常なノードの状態

次の状態は、ノードが異常であることを示します。

ノード条件 NotReady が約 10 分間、true である。
正常に作成されてから、マシンの状態が約 10 分間 Unavailable である。
VM が作成されてから、マシンの状態が約 30 分間 Available にならない。
約 10 分間 Available 状態のマシンに対応するノードオブジェクトがない（nodeRef が nil）。
ノード条件 DiskPressure が約 30 分間、true である。

ノード修復の戦略

Anthos clusters on VMware では、ノードが上記の一覧の条件のうち少なくとも 1 つを満たしている場合に、ノードでの修復を開始します。

修復によって異常なノードがドレインされ、新しい VM が作成されます。ノードのドレインが 1 時間失敗しつづけると、修復プロセスによってドレインが強制され、アタッチされた Kubernetes 管理ディスクが安全にアタッチ解除されます。

同じ MachineDeployment に異常なノードが複数ある場合、一度に修復が行われるのはそのうちのいずれか 1 つのノードに対してのみです。

1 つのノードプールの 1 時間あたりの修復回数は、以下の回数に制限されます。

3
ノードプール内のノード数の 10%

新しいクラスタのノードの修復とヘルスチェックを有効にする

管理クラスタ、またはユーザークラスタの構成ファイルで、autoRepair.enabled を true に設定します。

autoRepair:
  enabled: true

管理クラスタ、またはユーザークラスタの作成手順を続行します。

既存のユーザークラスタのノードの修復とヘルスチェックを有効にする

ユーザークラスタの構成ファイルで、autoRepair.enabled を true に設定します。

クラスタを更新します。

gkectl update cluster --kubeconfig ADMIN_CLUSTER_KUBECONFIG --config USER_CLUSTER_CONFIG

以下を置き換えます。

ADMIN_CLUSTER_KUBECONFIG: 管理クラスタの kubeconfig ファイルのパス
USER_CLUSTER_CONFIG: ユーザークラスタの構成ファイルのパス

既存の管理クラスタのノードの修復とヘルスチェックを有効にする

管理クラスタ構成ファイルで、autoRepair.enabled を true に設定します。

クラスタを更新します。

gkectl update admin --kubeconfig ADMIN_CLUSTER_KUBECONFIG --config ADMIN_CLUSTER_CONFIG

ADMIN_CLUSTER_CONFIG は、管理クラスタ構成ファイルのパスで置き換えます。

ヘルスチェッカーから取得したログを表示する

管理クラスタ内のすべてのヘルスチェッカー Pod を一覧表示します。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG get pods --all-namespaces | grep cluster-health-controller

出力は次のようになります。

kube-system       cluster-health-controller-6c7df455cf-zlfh7   2/2   Running
my-user-cluster   cluster-health-controller-5d5545bb75-rtz7c   2/2   Running

特定のヘルスチェッカーから取得したログを表示するには、いずれかの Pod 内の cluster-health-controller コンテナのログを取得します。たとえば、上に記した出力に示す my-user-cluster のログを取得するには、次のようにします。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG --namespace my-user-cluster logs \
    cluster-health-controller-5d5545bb75-rtz7c cluster-health-controller

ヘルスチェッカーから取得したイベントを表示する

管理クラスタ内のすべてのクラスタオブジェクトを一覧表示します。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG get clusters --all-namespaces

出力は次のようになります。

default            gke-admin-ldxh7   2d15h
my-user-cluster    my-user-cluster   2d12h

特定のクラスタのイベントを表示するには、--show-events フラグを指定して kubectl describe cluster を実行します。たとえば、上の出力にある my-user-cluster のイベントを表示するには、次のようにします。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG --namespace my-user-cluster \
    describe --show-events cluster my-user-cluster

出力例:

Events:
  Type     Reason             Age   From                                 Message
  ----     ------             ----  ----                                 -------
  Warning  ValidationFailure  17s   cluster-health-periodics-controller  validator for Pod returned with status: FAILURE, reason: 1 pod error(s).

ユーザークラスタのノードの修復とヘルスチェックを無効にする

ユーザークラスタの構成ファイルで、autoRepair.enabled を false に設定します。

クラスタを更新します。

gkectl update cluster --kubeconfig ADMIN_CLUSTER_KUBECONFIG --config USER_CLUSTER_CONFIG

管理クラスタのノードの修復とヘルスチェックを無効にする

管理クラスタ構成ファイルで、autoRepair.enabled を false に設定します。

クラスタを更新します。

gkectl update admin --kubeconfig ADMIN_CLUSTER_KUBECONFIG --config ADMIN_CLUSTER_CONFIG

ノードの自動修復のデバッグ

ノードの自動修復に関する問題は、管理クラスタ内のマシンオブジェクトとノードオブジェクトを記述することで調査できます。次に例を示します。

マシンオブジェクトを一覧表示します。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG  get machines

出力例:

default     gke-admin-master-wcbrj
default     gke-admin-node-7458969ff8-5cg8d
default     gke-admin-node-7458969ff8-svqj7
default     xxxxxx-user-cluster-41-25j8d-567f9c848f-fwjqt

マシンオブジェクトのうちの 1 つを記述します。

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG describe machine gke-admin-master-wcbrj

出力で、cluster-health-controller のイベントを探します。

同様に、ノードオブジェクトの一覧表示と記述を行うことができます。例:

kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG get nodes
...
kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG describe node gke-admin-master-wcbrj

ノードの手動修復

管理コントロールプレーンノード

通常の手動修復では機能しないため、管理コントロールプレーンノードには専用の修復コマンドがあります。

gkectl repair admin-master を使用して管理コントロールプレーンノードを修復します。

コントロールプレーン V2 のユーザークラスタのコントロールプレーンノード

コントロールプレーン V2 ユーザークラスタのコントロールプレーンノードは、他のノードとは異なる方法で管理されます。

kubeception のユーザークラスタと同様に、コントロールプレーン V2 のユーザークラスタのコントロールプレーンマシンオブジェクトは管理クラスタ内にあります。また、ノードの自動修復は管理クラスタノードの自動修復の対象となります。

管理クラスタノードの自動修復ロジックで解決しないノードの問題がある場合、または管理クラスタノードの自動修復を有効にしていない場合は、手動修復を実施できます。これによりノードが削除され、再作成されます。

ノードに対応するマシンオブジェクトの名前を取得します。
```
kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME get machines
```
次のように置き換えます。
- ADMIN_CLUSTER_KUBECONFIG: 管理 kubeconfig ファイルのパス。
- USER_CLUSTER_NAME: 対象とするユーザークラスタの名前。
マシンオブジェクトに repair アノテーションを追加します。
```
kubectl annotate --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME machine MACHINE_NAME onprem.cluster.gke.io/repair-machine=true
```
MACHINE_NAME は、マシンオブジェクトの名前に置き換えます。

マシンオブジェクトを削除します。

kubectl delete --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME machine MACHINE_NAME

HA コントロールプレーン用にノードを 1 つずつ再作成します。再作成しないと、コントロールプレーンが予期せず停止することがあります。

その他のノード

自動修復ロジックで解決しないノードの問題がある場合、またはノードの自動修復を有効にしていない場合は、手動修復を実施できます。これによりノードが削除され、再作成されます。

ノードに対応するマシンオブジェクトの名前を取得します。

kubectl --kubeconfig CLUSTER_KUBECONFIG get machines

CLUSTER_KUBECONFIG は、管理クラスタまたはユーザークラスタの kubeconfig ファイルのパスに置き換えます。

マシンオブジェクトに repair アノテーションを追加します。

kubectl annotate --kubeconfig CLUSTER_KUBECONFIG machine MACHINE_NAME onprem.cluster.gke.io/repair-machine=true

MACHINE_NAME は、マシンオブジェクトの名前に置き換えます。

マシンオブジェクトを削除します。

kubectl delete --kubeconfig CLUSTER_KUBECONFIG machine MACHINE_NAME

ノードの自動修復とヘルスチェック

異常なノードの状態

ノード修復の戦略

新しいクラスタのノードの修復とヘルスチェックを有効にする

既存のユーザー クラスタのノードの修復とヘルスチェックを有効にする

既存の管理クラスタのノードの修復とヘルスチェックを有効にする

ヘルス チェッカーから取得したログを表示する

ヘルス チェッカーから取得したイベントを表示する

ユーザー クラスタのノードの修復とヘルスチェックを無効にする

管理クラスタのノードの修復とヘルスチェックを無効にする

ノードの自動修復のデバッグ

ノードの手動修復

管理コントロール プレーン ノード

コントロール プレーン V2 のユーザー クラスタのコントロール プレーン ノード

その他のノード

既存のユーザークラスタのノードの修復とヘルスチェックを有効にする

ヘルスチェッカーから取得したログを表示する

ヘルスチェッカーから取得したイベントを表示する

ユーザークラスタのノードの修復とヘルスチェックを無効にする

管理コントロールプレーンノード

コントロールプレーン V2 のユーザークラスタのコントロールプレーンノード