このページは Cloud Translation API によって翻訳されました。

GKE のトラブルシューティング

Autopilot Standard

このページでは、Google Kubernetes Engine（GKE）の使用時に発生する可能性のある一般的な問題のトラブルシューティングページの一覧を示します。このページは、GKE 構成のトラブルシューティングを行う管理者とアーキテクト、セキュリティスペシャリスト、ネットワークスペシャリスト、ストレージスペシャリストを対象としています。GKE ロールの詳細については、一般的な GKE ユーザーのロールとタスクをご確認ください。

GKE のトラブルシューティングを初めて行う場合や、基本的なツールと手法の概要を知りたい場合は、トラブルシューティングの概要から始めます。

GKE インフラストラクチャの使用のさまざまな段階で発生する問題を診断して解決するには、次のセクションをご覧ください。

クラスタの設定
自動スケーリング
ストレージ
クラスタセキュリティ
ワークロード
クラスタ管理
モニタリング

このページから、次のような一般的なトラブルシューティングのトピックも確認できます。

4xx エラー
既知の問題

GKE ネットワーキングのトラブルシューティングを行うには、GKE ネットワーキングのドキュメントで GKE ネットワーキングのトラブルシューティングをご覧ください。

トラブルシューティングの概要

トピック	説明
GKE のトラブルシューティングの概要	GKE のトラブルシューティングを開始できるよう、全体的なプロセスと基本的なコンセプトについて学びます。
サービスの健全性とインシデントを確認する	GKE と関連する Google Cloud サービスの健全性を確認して、プラットフォームの問題を除外する方法について説明します。
Google Cloud コンソールでクラスタとワークロードの健全性を評価する	Google Cloud コンソールを使用して GKE の問題を調査して解決する方法について説明します。
`kubectl` を使用してクラスタの状態を調査する	クラスタとワークロードの問題を診断するための一般的な `kubectl` コマンドと手法について説明します。
Cloud Logging で履歴分析を行う	Cloud Logging を効果的に使用して、GKE の問題の根本原因を見つける方法について説明します。
Cloud Monitoring を使用して事前対応型のモニタリングを行う	Cloud Monitoring のダッシュボードと指標を使用して、GKE の問題を特定、診断、解決します。
Gemini Cloud Assist で診断を迅速化する	Gemini が GKE の問題の診断と解決にどのように役立つかをご覧ください。
すべてをまとめる: トラブルシューティングのシナリオの例	GKE での一般的なシナリオのトラブルシューティングのステップバイステップの例を確認する。

クラスタの設定

トピック	説明
クラスタの作成	クラスタの作成に関する問題を解決します。
Autopilot クラスタ	クラスタの作成、Namespace の削除、スケーリング、ワークロードの問題など、GKE Autopilot クラスタを診断してトラブルシューティングを行います。
Kubectl コマンドラインツール	認証や認可に関する問題など、GKE の `kubectl` コマンドラインツールのトラブルシューティングを行います。このページでは、Konnectivity プロキシのトラブルシューティングを行う方法についても説明します。このプロキシが原因で `kubectl logs`、`attach`、`exec`、`port-forward` コマンドが応答しなくなっているかどうかを確認できます。
Standard ノードプール	ノードプールの作成、ベストエフォート型のプロビジョニング、インスタンスメタデータの破損、新しいノードプールへのワークロードの移行に関する問題など、GKE Standard ノードプールのトラブルシューティングを行います。
ノードの登録	GKE Standard クラスタにノードを追加する際に発生する問題（ノード登録の失敗、ノード登録に成功するための前提条件を満たしていないなど）のトラブルシューティングを行います。
コンテナランタイム	`containerd` と `dockershim` や、限定公開レジストリに関する問題など、GKE のコンテナランタイムのトラブルシューティングを行います。

自動スケーリング

トピック	説明
クラスタオートスケーラーがスケールダウンしない	クラスタが使用率の低いノードを削除しない一般的な理由を診断して解決します。制限の厳しい `PodDisruptionBudgets`、ローカルストレージを使用する Pod、ノードの削除を妨げる特定のアノテーション（`"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"` など）などの問題を確認する方法について説明します。
クラスタオートスケーラーがスケールアップしない	クラスタオートスケーラーが需要を満たすために新しいノードを追加しない理由を学習します。スケジュールできない Pod を確認し、クラスタまたはノードプールのサイズ上限に達していないことを確認し、リソース割り当てまたはリージョン VM の可用性に関する潜在的な問題を特定します。
水平 Pod 自動スケーリング	Horizontal Pod Autoscaler がアプリケーションの Pod レプリカをスケーリングしない問題のトラブルシューティングを行います。HorizontalPodAutoscaler オブジェクトの構成ミスや指標パイプラインの問題など、一般的な問題を解決します。

ストレージ

トピック	説明
ストレージ	リージョン永続ディスク、ディスクパフォーマンス、ボリューム拡張に関する問題など、ストレージのトラブルシューティングを行います。

クラスタセキュリティ

トピック	説明
認証	RBAC、Workload Identity Federation for GKE、GKE メタデータサーバーに関する問題など、GKE での認証のトラブルシューティングを行います。
サービスアカウント	デフォルトのサービスアカウントの復元や Compute Engine のデフォルトのサービスアカウントの有効化など、サービスアカウントのトラブルシューティングを行います。
アプリケーションレイヤでの Secret	アプリケーションレイヤでの Secret の暗号化の構成時に発生する可能性のある問題（更新の失敗、Cloud KMS 鍵を使用できないエラー、Cloud KMS 鍵バージョンが破棄されたエラーなど）のトラブルシューティングを行います。

クラスタのルート認証局の有効期限が近づいている

トピック	説明
ルート認証局（CA）の有効期限が近づいている	クラスタのルート認証局（CA）の有効期限が近づいている場合は、認証情報のローテーションを行う方法を確認し、通常のクラスタオペレーションが中断されないようにします。

ワークロード

トピック	説明
デプロイされたワークロード	GKE クラスタで実行されているワークロードのエラー（`PodUnschedulable` など）をトラブルシューティングします。`MatchNodeSelector` や `Does not have minimum availability` などのエラーに関する参考情報については、PodUnschedulable セクションをご覧ください。
イメージの pull	イメージの pull に関するトラブルシューティングを行います。`ImagePullBackOff` や `ErrImagePull` などのステータスの原因と、認証やネットワーク接続といった一般的な問題を解決してこれらのステータスを解決する方法について学びます。
CrashLoopBackOff イベント	GKE で `CrashLoopBackOff` イベントのトラブルシューティングを行います。リソースの枯渇、アプリの構成ミス、liveness プローブの失敗などの問題を診断します。
OOM イベント	Kubernetes のメモリ不足（OOM）イベントのトラブルシューティングを行います。原因を特定し、イベントタイプを区別して、コンテナレベルとノードレベルの両方の OOM 終了に効果的な解決策を適用します。
Arm ワークロード	Arm ワークロードに関する問題（Arm ノードの Pod のクラッシュなど）のトラブルシューティングを行います。
TPU	割り当て、ノード自動プロビジョニング、ワークロードの構成、スケジューリングに関する問題など、TPU のトラブルシューティングを行います。
GPU	GPU ドライバのインストール、デバイスプラグインのエラー、コンテナイメージに関する問題など、GPU のトラブルシューティングを行います。

クラスタ管理

トピック	説明
クラスタのアップグレード	アップグレードの完了に時間がかかる、アップグレードが完了しない、予期しない自動アップグレード、失敗、アップグレード後の問題など、GKE クラスタとノードのアップグレードに関する問題のトラブルシューティングと解決を行います。
Webhook	アドミッション Webhook を使用する際のトラブルシューティング方法やクラスタコントロールプレーンの安定性を確保する方法について説明します。
Namespace が `Terminating` 状態のままになる	削除をブロックしている異常なコンポーネントを特定して削除することで、Namespace が `Terminating` 状態のままになる問題のトラブルシューティングを行います。
同時オペレーション	これらのエラーを特定し、オペレーションの完了を待って解決する方法を学習して、同時実行オペレーションのトラブルシューティングを行います。

モニタリング

トピック	説明
システム指標	Cloud Monitoring にシステム指標が表示されない問題のトラブルシューティングを行います。
モニタリングダッシュボード	モニタリングの有効化、Kubernetes リソースの不足、権限に関する問題など、モニタリングダッシュボードのトラブルシューティングを行います。
ロギング	ロギングの有効化、ログの欠落、割り当てに関する問題など、ロギングに関するトラブルシューティングを行います。

4xx エラー

トピック	説明
4xx エラー	GKE の使用時に発生する可能性のある 400、401、403、404 エラーのトラブルシューティングを行います。このページには、アカウントに対する編集権限がないエラーのトラブルシューティング方法も記載されています。

既知の問題

トピック	説明
既知の問題	GKE の使用に影響する可能性がある既知の問題を特定して解決します。

次のステップ

このドキュメントで問題を解決できない場合は、サポートを受けるで、次のトピックに関するアドバイスなど、詳細なヘルプをご覧ください。
- Cloud カスタマーケアに問い合わせて、サポートケースを登録する。
- StackOverflow で質問する、google-kubernetes-engine タグを使用して類似の問題を検索するなどして、コミュニティからサポートを受ける。#kubernetes-engine Slack チャネルに参加して、コミュニティサポートを利用することもできます。
- 公開バグトラッカーを使用して、バグの報告や機能リクエストの登録を行う。