トラブルシューティング ページ


このページでは、Google Kubernetes Engine(GKE)のトラブルシューティング ページの一覧を示します。GKE 環境の構築時に通常行うタスクごとに整理されています。たとえば、まずクラスタを設定してから、ネットワーキングの構成、ストレージのプロビジョニング、クラスタ セキュリティの確立を行います。その後、ワークロードをデプロイし、クラスタの管理とモニタリングを開始できます。

このページから、一般的なトラブルシューティングのトピック(既知の問題と 4xx エラー)も参照できます。

クラスタの設定

トピック 説明
クラスタの作成 クラスタの作成に関する問題を解決します。
Autopilot クラスタ クラスタの作成、Namespace の削除、スケーリング、ワークロードの問題など、GKE Autopilot クラスタを診断してトラブルシューティングを行います。
Kubectl コマンドライン ツール 認証や認可に関する問題など、GKE の kubectl コマンドライン ツールのトラブルシューティングを行います。このページでは、Konnectivity プロキシのトラブルシューティングを行う方法についても説明します。このプロキシが原因で kubectl logsattachexecport-forward コマンドが応答しなくなっているかどうかを確認できます。
Standard ノードプール ノードプールの作成、ベスト エフォート型のプロビジョニング、インスタンス メタデータの破損、新しいノードプールへのワークロードの移行に関する問題など、GKE Standard ノードプールのトラブルシューティングを行います。
ノードの登録 GKE Standard クラスタにノードを追加する際に発生する問題(ノード登録の失敗、ノード登録に成功するための前提条件を満たしていないなど)のトラブルシューティングを行います。
コンテナ ランタイム containerddockershim や、限定公開レジストリに関する問題など、GKE のコンテナ ランタイムのトラブルシューティングを行います。

ネットワーキング

トピック 説明
クラスタ接続 Pod ネットワーク接続の問題など、ネットワーク接続のトラブルシューティングを行います。
VPC クラスタでの IP アドレス管理 サブネットの枯渇やデフォルトの SNAT の問題など、VPC ネイティブ クラスタでの IP アドレスの管理に関するトラブルシューティングを行います。
DNS GKE の Cloud DNS サービスで発生する問題(Cloud DNS の割り当てやレスポンス ポリシーに関する問題など)のトラブルシューティングを行います。
クラスタのネットワーク分離 クラスタの作成、コントロール プレーンへのアクセス、VPC ネットワーク ピアリング、一般公開リソースへの接続に関する問題など、クラスタのネットワーク分離に関するトラブルシューティングを行います。
ロード バランシング BackendConfig、Ingress セキュリティ ポリシー、NEG の 500 シリーズエラー、内部 Ingress に関する問題など、ロード バランシングのトラブルシューティングを行います。
マルチクラスタ Ingress VIP、502 レスポンス、構成クラスタの移行に関する問題など、MultiClusterIngress リソースと MultiClusterService リソースのトラブルシューティングを行います。
クラスタからの Cloud NAT パケットロス 限定公開ノードを含むクラスタで Cloud NAT からのパケットロスのトラブルシューティングを行います。Cloud Logging と Cloud Monitoring を使用してパケットロスの原因を特定する方法などを紹介します。

ストレージ

トピック 説明
ストレージ リージョン永続ディスク、ディスク パフォーマンス、ボリューム拡張に関する問題など、ストレージのトラブルシューティングを行います。

クラスタ セキュリティ

トピック 説明
認証 RBAC、Workload Identity Federation for GKE、GKE メタデータ サーバーに関する問題など、GKE での認証のトラブルシューティングを行います。
サービス アカウント デフォルトのサービス アカウントの復元や Compute Engine のデフォルトのサービス アカウントの有効化など、サービス アカウントのトラブルシューティングを行います。
アプリケーション レイヤでの Secret アプリケーション レイヤでの Secret の暗号化の構成時に発生する可能性のある問題(更新の失敗や Cloud Key Management Service 鍵のエラーなど)のトラブルシューティングを行います。

クラスタのルート認証局の有効期限が近づいている

トピック 説明
ルート認証局(CA)の有効期限が近づいている クラスタのルート認証局(CA)の有効期限が近づいている場合は、認証情報のローテーションを行う方法を確認し、通常のクラスタ オペレーションが中断されないようにします。

ワークロード

トピック 説明
デプロイされたワークロード GKE クラスタで実行されているワークロードに関するエラー(CrashLoopBackOffImagePullBackOffPodUnschedulable など)のトラブルシューティングを行います。
Arm ワークロード Arm ワークロードに関する問題(Arm ノードの Pod のクラッシュなど)のトラブルシューティングを行います。
TPU 割り当て、ノード自動プロビジョニング、ワークロードの構成、スケジューリングに関する問題など、TPU のトラブルシューティングを行います。
GPU GPU ドライバのインストール、デバイス プラグインのエラー、コンテナ イメージに関する問題など、GPU のトラブルシューティングを行います。

クラスタ管理

トピック 説明
アップグレード コントロール プレーンのアップグレード後に正常でなくなる kube-apiserver や、アップグレード後に強制排除されるワークロードなど、GKE クラスタのアップグレードに関する問題のトラブルシューティングを行います。
Webhook アドミッション Webhook を使用する際のトラブルシューティング方法やクラスタ コントロール プレーンの安定性を確保する方法について説明します。
Namespace が Terminating 状態のままになる 削除をブロックしている異常なコンポーネントを特定して削除することで、Namespace が Terminating 状態のままになる問題のトラブルシューティングを行います。

モニタリング

トピック 説明
システム指標 Cloud Monitoring にシステム指標が表示されない問題のトラブルシューティングを行います。
モニタリング ダッシュボード モニタリングの有効化、Kubernetes リソースの不足、権限に関する問題など、モニタリング ダッシュボードのトラブルシューティングを行います。
ロギング ロギングの有効化、ログの欠落、割り当てに関する問題など、ロギングに関するトラブルシューティングを行います。

4xx エラー

トピック 説明
4xx エラー GKE の使用時に発生する可能性のある 400、401、403、404 エラーのトラブルシューティングを行います。このページには、アカウントに対する編集権限がないエラーのトラブルシューティング方法も記載されています。

既知の問題

トピック 説明
既知の問題 GKE の使用に影響する可能性がある既知の問題を特定して解決します。