コンテンツに移動
Containers & Kubernetes

新しいハンドブックで Google Kubernetes Engine のトラブルシューティングを簡単に

2023年7月21日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 7 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は、お客様のトラブルシューティングを簡単にする新しい方法の探求を続けています。このたび、Google は新しいトラブルシューティングの方法として、Google Kubernetes Engine(GKE)向けのインタラクティブな推奨ハンドブックを導入しました。

お客様にとっては初めて直面する問題でも、Google では過去に一般的な問題として対応した経験がある場合に、このハンドブックが迅速な問題解決と、平均修復時間(MTTR)の短縮をサポートします。

この新しいハンドブックの例を簡単に見ていきましょう。

GKE クラスタがあり、メモリや CPU などの利用可能なリソースを超えるリクエストをするアプリケーションがあるとします。そのような状況では、Pod が「スケジュール不可能」としてマークされます。

Pod が「スケジュール不可能」としてマークされるというのはよくある問題で、Google の詳細なドキュメントを参照していただけますが、ここでどのようにしてトラブル シューティングのプロセスを簡素化できるのかを見てみましょう。

次のスクリーンショットでは、クラスタビューの Pod がスケジュール不可能であることを示す通知がハイライト表示されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-UnscheduledPods.max-900x900.png

この通知をクリックすると、次の画面が表示され、この問題を理解するための方法がいくつか提案されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2-Playbook.max-2200x2200.png

ハンドブックをクリックすると、この問題に関連するログ、指標、推奨される次のステップなどのさまざまな情報が表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3-ExplorePlaybook.gif

ログや指標を見れば、Deployment の Pod が使用可能なメモリ容量を超えたリクエストをしていること、ノードには利用可能なリソースが十分にあること、Pod に上限が設定されていないことがわかります。したがって、この問題を解決するには、Pod リクエストのメモリ量を調整するか、クラスタのサイズを拡大する必要があります。

このダッシュボードはカスタマイズ可能なので、担当する業務や組織の必要に応じてコンポーネントを追加または削除できます。

最後に、ハンドブックの下部にある [今後の対策のヒント] の下で、この問題を検出するためのアラート ポリシーを作成できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4-AlertConfig.max-2200x2200.png

このアラートが発出された場合は、インシデントを確認するか、ポリシーリンクをクリックしてこのダッシュボードを開き、トラブルシューティングを開始できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5-EmailNotification.max-2200x2200.png

今週は、2 つのハンドブックの提供を開始します。スケジュール不可の Pod についてのハンドブックと、デプロイの試行で繰り返しクラッシュする場合(一般的に CrashLoopBackOff と呼ばれる)のトラブルシューティングに関するハンドブックです。近日中にメモリと CPU のスケーリングの問題についてのハンドブックも提供する予定です。

どちらも問題が発生した場合にクラスタに関する通知として表示されます。この機能がトラブルシューティングのお役に立てば幸いです。このプロダクトについてご質問やフィードバックがございましたら、このページの疑問符のアイコンからフィードバックをお寄せください。


- Cloud Ops、プロダクト マネージャー Kyle Benson
投稿先