ヘルスチェック機能は、クラスタ コントロール プレーンと複数の重要なコンポーネントの健全性を定期的にモニタリングし、クラスタの潜在的な問題を検出して診断する際に役立ちます。
さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。問題の検出
クラスタ ヘルス チェッカーを使用して、クラスタ内の以下の問題が検出され、アラートが送信されます。
コントロール プレーン ノードの
kube-scheduler
の状態:kube-scheduler
が正常でない場合は、クラスタによる Pod のノードへの割り当てに問題があることを示します。さらに調査するには、kube-scheduler
Pod のログを調べます。コントロール プレーン ノードの
kube-controller-manager
の状態:kube-controller-manager
は、ReplicaSet、Deployment、Namespace などのさまざまなコントローラをモニタリングします。kube-controller-manager
が異常と判断される場合は、管理する 1 つ以上のコントローラが正常に動作していない可能性があります。正確に問題を特定するには、kube-controller-manager
Pod のログを調べます。正常に機能していないコントローラについて、より多くの情報が得られる場合があります。ルート ボリュームの容量: ヘルス チェッカーは、各コントロール プレーン ノードのルート ボリュームに十分な容量があるかどうかを確認します。使用可能な容量が 512 MB を下回ると、ヘルス チェッカーから、ディスク容量が不足する潜在的リスクが通知されます。
ヘルスチェック イベントを表示する
特定のクラスタのヘルス チェッカーによるアラートを表示するには、次のコマンドを実行します。
gcloud container aws clusters describe CLUSTER_NAME \
--location GOOGLE_CLOUD_LOCATION
次のように置き換えます。
CLUSTER_NAME
: クラスタの名前GOOGLE_CLOUD_LOCATION
: クラスタを管理する Google Cloud のロケーション名
想定される出力の例を次に示します。
{ "name": "some-cluster-name", "description": "test-cluster", ... "errors": [ { "message": "Replica (replica-name)": kube-controller-manager is unhealthy" }, { "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left" } ] ... }
この例で、エラー メッセージは kube-controller-manager
コンポーネントが正常でないこと、およびコントロール プレーン ノードのルート ボリュームの容量が少なくなっていることを示します。