Google Kubernetes Engine(GKE)でサービスが常にスムーズに実行されるよう、問題のトラブルシューティングを効果的に行う方法について説明します。Kubernetes を初めて使用する方も上級ユーザーの方も、CrashLoopBackOff などのアプリケーション エラーから、ノードが参加しない、Pod がスケジューリングされないなどのクラスタ全体の問題まで、一般的な問題を診断して解決する方法をご確認ください。kubectl コマンドライン ツール、Cloud Logging、Cloud Monitoring などの主要なツールを使用して、これらの問題のトラブルシューティングを行う方法を説明します。
次のツールと手法を使用して、GKE のトラブルシューティング スキルを高めます。
クラスタに影響を与える可能性のある、信頼性に関して進行中のインシデントについて、 Google Cloud サービスの健全性とインシデントを確認します。
潜在的な問題をすばやく特定するために、 Google Cloud コンソールでクラスタとワークロードの健全性を評価します。
ノードや Pod などのリソースのライブ ステータスを確認するために、
kubectlコマンドライン ツールを使用してクラスタの状態を調査します。障害の根本原因を特定するために、Cloud Logging で履歴分析を実施します。
ユーザーに影響が及ぶ前に問題に対処するために、Cloud Monitoring で予防的モニタリングを行います。
Gemini Cloud Assist で診断を迅速化するために、ステップごとのガイダンスを受け取り、問題を自動的に調査します。
実際のアプリケーションの障害を診断して解決するために、トラブルシューティングのシナリオ例に沿って、これらのツールが連動する仕組みを学習します。
基本的な概念を理解する
Kubernetes と GKE を初めて使用する場合は、トラブルシューティングを開始する前に、クラスタ アーキテクチャや Pod とノードの関係などのコアコンセプトを理解することが不可欠です。詳細については、GKE の学習を開始するをご覧ください。
また、GKE のどの部分のメンテナンスをお客様が担当し、どの部分を Google Cloud が担当するのかを理解することも重要です。詳細については、GKE の責任の共有をご覧ください。
次のステップ
Google Cloud サービスの健全性とインシデントを確認する(このシリーズの次のページ)を読む。
GKE のトラブルシューティング ガイドで特定の問題の解決に関するヒントを確認する。
このドキュメントに問題のソリューションが見当たらない場合は、サポートを受けるで、次のトピックに関するアドバイスなど、詳細なヘルプをご覧ください。
- Cloud カスタマーケアに問い合わせて、サポートケースを登録する。
- StackOverflow で質問する、
google-kubernetes-engineタグを使用して類似の問題を検索するなどして、コミュニティからサポートを受ける。#kubernetes-engineSlack チャネルに参加して、コミュニティ サポートを利用することもできます。 - 公開バグトラッカーを使用して、バグの報告や機能リクエストの登録を行う。