クラスタの問題を診断する

ヘルスチェック機能は、クラスタ コントロール プレーンと複数の重要なコンポーネントの健全性を定期的にモニタリングし、クラスタの潜在的な問題を検出して診断する際に役立ちます。

さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。

問題の検出

クラスタ ヘルス チェッカーを使用して、クラスタ内の以下の問題が検出され、アラートが送信されます。

  • コントロール プレーン ノードの kube-scheduler の状態: kube-scheduler が正常でない場合は、クラスタによる Pod のノードへの割り当てに問題があることを示します。さらに調査するには、kube-scheduler Pod のログを調べます。

  • コントロール プレーン ノードの kube-controller-manager の状態: kube-controller-manager は、ReplicaSet、Deployment、Namespace などのさまざまなコントローラをモニタリングします。kube-controller-manager が異常と判断される場合は、管理する 1 つ以上のコントローラが正常に動作していない可能性があります。正確に問題を特定するには、kube-controller-manager Pod のログを調べます。正常に機能していないコントローラについて、より多くの情報が得られる場合があります。

  • ルート ボリュームの容量: ヘルス チェッカーは、各コントロール プレーン ノードのルート ボリュームに十分な容量があるかどうかを確認します。使用可能な容量が 512 MB を下回ると、ヘルス チェッカーから、ディスク容量が不足する潜在的リスクが通知されます。

ヘルスチェック イベントを表示する

特定のクラスタのヘルス チェッカーによるアラートを表示するには、次のコマンドを実行します。

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

次のように置き換えます。

  • CLUSTER_NAME: クラスタの名前
  • GOOGLE_CLOUD_LOCATION: クラスタを管理する Google Cloud のロケーション名

想定される出力の例を次に示します。

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

この例で、エラー メッセージは kube-controller-manager コンポーネントが正常でないこと、およびコントロール プレーン ノードのルート ボリュームの容量が少なくなっていることを示します。

次のステップ

さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。