トラブルシューティング ページ


このページでは、Google Kubernetes Engine(GKE)のトラブルシューティング ページの一覧を示します。GKE 環境の構築時に通常行うタスクごとに整理されています。たとえば、まずクラスタを設定してから、ネットワーキングの構成、ストレージのプロビジョニング、クラスタ セキュリティの確立に進みます。そこから、ワークロードをデプロイして、クラスタの管理とモニタリングを開始できます。

このページでは、一般的なトラブルシューティングのトピック(既知の問題と 4xx エラー)にもアクセスできます。

クラスタの設定

トピック 説明
クラスタの作成 クラスタの作成に関する問題を解決する。
Autopilot クラスタ クラスタの作成、Namespace の削除、スケーリング、ワークロードの問題など、GKE Autopilot クラスタを診断してトラブルシューティングします。
kubectl コマンドライン ツール GKE の kubectl コマンドライン ツールのトラブルシューティングを行います。認証や承認に関する問題など。このページでは、Konnectivity プロキシのトラブルシューティングを行う方法についても説明します。これにより、kubectl logsattachexecport-forward コマンドが応答しなくなる原因がプロキシにあるかどうかを確認できます。
標準ノードプール ノードプールの作成、ベスト エフォート プロビジョニング、インスタンス メタデータの破損、ワークロードの新しいノードプールへの移行に関する問題など、GKE Standard ノードプールのトラブルシューティングを行います。
ノードの登録 GKE Standard クラスタにノードを追加する際に発生する問題(ノード登録の失敗、ノード登録が成功するための前提条件がないなど)のトラブルシューティングを行います。
コンテナ ランタイム containerddockershim の問題や限定公開レジストリなど、GKE のコンテナ ランタイムのトラブルシューティングを行います。

ネットワーキング

トピック 説明
クラスタ接続 Pod ネットワーク接続の問題など、ネットワーク接続のトラブルシューティングを行います。
VPC クラスタでの IP アドレス管理 VPC ネイティブ クラスタでの IP アドレスの管理に関するトラブルシューティングを行います。サブネットの枯渇やデフォルトの SNAT に関する問題など。
GKE の Kube-dns /etc/resolv.conf ファイルやネットワーク ポリシーなどを調査して、kube-dns の問題の原因を特定する方法を学びます。また、断続的な DNS タイムアウトなどの一般的な問題を解決する方法についても学習します。
GKE の Cloud DNS 基本設定の確認やログの調査などを行い、GKE で Cloud DNS の問題の原因を特定する方法を学びます。また、API レート制限や割り当て不足などのエラーを解決する方法についても説明します。
クラスタ ネットワーク分離 クラスタの作成、コントロール プレーンへのアクセス、VPC ネットワーク ピアリング、パブリック リソースへの接続に関する問題など、クラスタ ネットワークの分離に関するトラブルシューティングを行います。
負荷分散 BackendConfig の問題、Ingress セキュリティ ポリシー、NEG の 500 シリーズ エラー、内部 Ingress など、ロード バランシングのトラブルシューティングを行います。
マルチクラスタ Ingress VIP、502 レスポンス、構成クラスタの移行に関する問題など、MultiClusterIngress リソースと MultiClusterService リソースのトラブルシューティングを行います。
クラスタからの Cloud NAT パケットロス 限定公開ノードを使用するクラスタで Cloud NAT からのパケットロスをトラブルシューティングします。Cloud Logging と Cloud Monitoring を使用してパケットロスの原因を特定する方法についても説明します。

ストレージ

トピック 説明
ストレージ リージョン Persistent Disk、ディスク パフォーマンス、ボリュームの拡張に関する問題など、ストレージのトラブルシューティングを行います。

クラスタ セキュリティ

トピック 説明
認証 RBAC、Workload Identity Federation for GKE、GKE メタデータ サーバーに関する問題など、GKE での認証のトラブルシューティングを行います。
サービス アカウント デフォルトのサービス アカウントの復元や Compute Engine のデフォルトのサービス アカウントの有効化など、サービス アカウントのトラブルシューティングを行います。
アプリケーション レイヤのシークレット 更新の失敗や、 Cloud KMS 鍵を使用できないエラーなど、アプリケーション レイヤでの Secret の暗号化の構成時に発生する可能性のある問題のトラブルシューティングを行います。

クラスタのルート認証局の有効期限が近づいている

トピック 説明
ルート認証局(CA)の有効期限が切れる クラスタのルート認証局(CA)の有効期限が近づいている場合は、認証情報のローテーションを行う方法を学び、通常のクラスタ オペレーションが中断されないようにします。

ワークロード

トピック 説明
デプロイされたワークロード GKE クラスタで実行されているワークロードのエラー(CrashLoopBackOffImagePullBackOffPodUnschedulable など)をトラブルシューティングします。MatchNodeSelectorDoes not have minimum availability などのエラーに関するアドバイスについては、PodUnschedulable セクションをご覧ください。
Arm ワークロード Arm ノードの Pod のクラッシュなど、Arm ワークロードに関する問題のトラブルシューティングを行います。
TPU 割り当て、ノードの自動プロビジョニング、ワークロードの構成、スケジューリングに関する問題など、TPU のトラブルシューティングを行います。
GPU GPU のトラブルシューティングを行います。GPU ドライバのインストール、デバイス プラグインのエラー、コンテナ イメージに関する問題など。

クラスタ管理

トピック 説明
アップグレード コントロール プレーンのアップグレード後に異常な kube-apiserver や、アップグレード後に強制排除されるワークロードなど、GKE クラスタのアップグレードに関する問題のトラブルシューティングを行います。
Webhook アドミッション Webhook を使用する際のトラブルシューティング方法と、クラスタ コントロール プレーンの安定性を確保する方法を学びます。
Namespace が Terminating 状態のままになる 削除をブロックしている異常なコンポーネントを特定して削除することで、Namespace が Terminating 状態のままになる問題をトラブルシューティングします。

モニタリング

トピック 説明
システム指標 Cloud Monitoring にシステム指標が表示されない問題のトラブルシューティングを行います。
Monitoring ダッシュボード モニタリングの有効化、Kubernetes リソースの不足、権限に関する問題など、モニタリング ダッシュボードのトラブルシューティングを行います。
Logging ロギングに関するトラブルシューティングを行います。ロギングの有効化、ログがない、割り当てに関する問題など。

4xx エラー

トピック 説明
4xx エラー GKE の使用時に発生する可能性のある 400、401、403、404 エラーのトラブルシューティングを行います。このページには、アカウントに対する編集権限がないエラーのトラブルシューティング方法も記載されています。

既知の問題

トピック 説明
既知の問題 GKE の使用に影響する可能性がある既知の問題を特定して解決します。