このページでは、Google Kubernetes Engine の Cloud Monitoring ダッシュボードにアクセスする方法とモニタリング ダッシュボードの使用方法について説明します。
モニタリング ダッシュボードへのアクセス
-
Google Cloud コンソールで [Monitoring] を選択し、 [ダッシュボード] を選択するか、次のボタンをクリックします。
「GKE」という名前のダッシュボードを選択します。
クラスタが表示されない場合や、クラスタ内のすべてのリソースが表示されない場合は、GKE ダッシュボードのトラブルシューティングをご覧ください。
GKE ダッシュボード インターフェース
GKE ダッシュボードは複数の部分に分かれています。
フィルタバーでは、ダッシュボード内でフィルタリングする GKE リソースを選択できます。
[アラートのスケジュール] では、ダッシュボードに特定の時間枠を選択して、その時間枠に発生したアラートの概要を表示できます。
GKE フリートが、クラスタ、Namespace、ノード、ワークロード、Namespace、Pod、コンテナ別に表示されます。各行に、1 つのリソースと指標が表示されます。行をクリックするとパネルが開き、そのリソースに関する詳細が表示されます。
フィルタバー
フィルタバーを使用すると、ダッシュボードに表示される GKE リソースをフィルタリングして、必要なデータを表示できます。また、選択したフィルタに関連するクラスタ内の他のリソースの情報も表示されます。
フィルタバーを使用する
ダッシュボード内のデータをフィルタリングするには、次の手順を行います。
フィルタバーをクリックして、フィルタ オプションを表示します。
フィルタリングする Kubernetes リソースを選択し、リソース名を選択します。
同じ名前のリソースが複数ある場合は、フィルタリングするリソースのインスタンスを選択します。
[適用] をクリックします。
ダッシュボードが更新され、更新された情報が表示されます。
フィルタバーを使用する際は、次の点に注意してください。
ダッシュボードにフィルタを適用した後、フィルタバーをもう一度クリックすると、追加のリソースをフィルタリングできます。
リソースによってはオプションが多すぎるため、フィルタ メニューに一部しか表示されない場合があります。その場合は、まず親リソースでフィルタリングして、オプションを絞り込む必要があります。たとえば、表示する Pod が多すぎる場合は、まず、クラスタまたはその他の Kubernetes リソースでフィルタリングして、Pod のリストを絞り込みます。
フィルタリングするリソースによっては、各フィルタ文字列の範囲を明確にするため、フィルタ インターフェースにデフォルトで追加のフィルタが表示されることがあります。たとえば、特定の Namespace でフィルタリングすると、その Namespace が存在するクラスタが追加されます。
アラートのスケジュール
[アラートのスケジュール] には、クラスタ内のアラートが表示されます。アラートのタイムラインには、選択した期間内に発生したアラート違反が表示されます。タイムラインの赤い領域にポインタを置くと、次のようにイベントカードが表示されます。
各イベントカードには、タイムラインに表示される 1 件のアラートに関する詳細情報が表示されます。
期間のプルダウン メニューを使用すると、アラートのスケジュールとダッシュボード内のテーブルに期間を設定できます。
イベントカードを使用する
アラートのスケジュールにカーソルを合わせると、アラート違反ごとにイベントカードが表示されます。
のアラートはインシデントが未解決であることを表しています。 のアラートは、インシデントが解決済みであることを示しています。選択した時間枠に 3 つ以上のアラートがある場合は、マウスホイールでイベントカードをスクロールできます。[すべてのアラートを表示] をクリックして、すべてのイベントカードをパネルに表示することもできます。
[アラート] でアラート インシデントを表示するには、[インシデントを表示] をクリックします。
[Associated resource] セクションのイベントカードに、アラートが関連付けられているリソースが表示されます。ダッシュボードで、アラートが関連付けられているリソースを確認できない場合は、イベントカードに [Update alert policy] リンクが表示されます。このリンクをクリックすると、[アラート ポリシーを編集] ページに移動します。ここで、アラート ポリシーの情報を更新し、ダッシュボードに関連リソースが表示されるようにします。
ダッシュボード テーブル
ダッシュボードでは、GKE リソースごとに指標テーブルが表示されます。このテーブルには次の列が表示されます。
名前: リソースの表示名。
アラート: 選択した期間内にリソースとその子に対して発生したアラートと確認済みのアラートの数。
サービスレベル目標(SLO): 選択したサービスレベル指標(SLI)を通じて測定される、サービスに対して求められるパフォーマンスのステートメント。
コンテナの再起動回数: 選択した時間内にコンテナが再起動した回数。
エラーログ: 選択した期間に基づいてエンティティに関連付けられたエラーログの数。
CPU 使用率: 選択した期間内でリソースに関連するコンテナの CPU 使用率。
- 使用される指標は
kubernetes.io/container/cpu/request_utilization
です。
- 使用される指標は
メモリ使用率: 選択した期間内でリソースに関連するコンテナのメモリ使用率。
- 使用される指標は
kubernetes.io/container/memory/request_utilization
です。メモリには強制排除可能と非強制排除不可の 2 種類があります。強制排除可能なメモリとは、使用率が高すぎる場合にリソースから削除されるメモリです。強制排除不可のメモリでは、使用量が上限を超えると、コンテナが終了する可能性があります。リソースの上限については、リクエストと上限をご覧ください。
- 使用される指標は
ディスク使用率: 選択した期間内でリソースに関連する Pod のディスク使用率。前の 2 つの列とは異なり、この指標は Pod によって作成され、コンテナ テーブルには表示されません。
- 使用される指標は
kubernetes.io/pod/volume/utilization
です。
- 使用される指標は
使用率に関する列については、次の点に注意してください。
これらの列では比率は示されません。2 つの異なるデータポイントが / で区切られて表示されます。最初の数字は、そのリソースに対してリクエストされた合計容量を表します。2 番目の数値は、リクエストされた容量の使用率を表します。
スパークラインには、そのページで選択した期間中の使用率データが表示されます。
ダッシュボード テーブルの構成
ダッシュボード内のテーブルは、最も関心のある情報が表示されるように構成できます。フィルタバーの横にある [Configure resource tables] プルダウン メニューを使用して、表示する列を選択できます。また、テーブルにスパークラインを表示するかどうかも選択できます。
なお、これらの構成は、ダッシュボード内のすべてのテーブルに適用されます。
テーブルを構成する手順は次のとおりです。
[Configure resource tables] プルダウン メニューを選択します。
テーブルに表示する列を選択します。
[名前] 列と [有効なアラート] 列は必須です。
スパークラインを表示するかどうかを選択します。
変更を適用するには [Apply] をクリックします。
リソースの詳細の表示
GKE ダッシュボードには、デフォルトで各 Kubernetes リソースの概要行が表示されます。テーブル内の行をクリックすると、そのリソースの詳細が表示されます。
リソースの詳細パネルに、選択したリソースに関する情報が表示されます。また、発生したアラートの情報を表示する [ALERTS] タブ、選択したリソースに関連付けられている Kubernetes イベントを表示する [イベント] タブがあります。グラフで指標を表示する [指標] タブ、リソースによって生成されたログを表示する [ログ] タブもあります。
[アラート] でアラート インシデントを表示するには、[アラートを表示] をクリックします。
Kubernetes イベントの表示
リソース詳細パネルの [イベント] タブには、リソースに関連付けられた Kubernetes イベントが表示されます。Kubernetes イベントは、コンテナ以外のすべてのリソースで使用できます。
[イベント] タブには、各イベントに関する情報を表示するカードが表示されます。また、イベントが下位のリソースで発生した場合、関連するリソースへのリンクもカードに表示されます。[ログを表示] をクリックしてログ エクスプローラを開き、イベントに関連付けられたログを表示できます。[メッセージをコピー] をクリックして、ログメッセージをクリップボードにコピーすることもできます。
ログ エクスプローラですべてのイベントを表示するには、[ロギングで表示] をクリックします。ログ エクスプローラが開き、Kubernetes イベントに関連付けられているすべてのログが表示されます。
SLO の管理
サービスレベル目標(SLO)を使用してアプリケーションの健全性とパフォーマンスを追跡できます。[サービスレベル目標(SLO)] 列を表示するようにダッシュボードを構成すると、アプリケーションが SLO を満たしているかどうかを確認できます。リソースの SLO は、次のいずれかのステータスになります。
正常: リソースが指定された SLO を満たすことを示します。このステータスは緑色のインジケーターで表示されます。
エラー バジェットの範囲外: リソースがエラー バジェットを使い切ったことを示します。つまり、不良イベントがさらに発生すると、リソースが SLO に違反することになる可能性があります。このステータスは黄色のインジケーターで表示されます。
異常: リソースが SLO の範囲外で、かつアラートが発生していることを示します。このステータスは赤色のインジケーターで表示されます。
ステータスがありません: その SLO に対するデータが存在しないことを示します。このステータスは灰色のインジケーターで表示されます。
これらのコンセプトの詳細については、サービスのモニタリングにおけるコンセプトをご覧ください。
SLO の詳細
Namespace、Workload、Kubernetes Service の Kubernetes リソースに対してのみ、SLO を定義できます。リソースの SLO コンプライアンスに関する詳細情報を表示するには、リソースをクリックして詳細パネルを開きます。詳細パネルで [SLO] タブをクリックします。
SLO を作成する
GKE モニタリング ダッシュボードから Kubernetes リソースの SLO を作成できます。
GKE ダッシュボード ページで、Kubernetes リソースの行で
をクリックして [サービスレベル目標(SLO)の作成] パネルを表示します。リソースの詳細パネルで、
[SLO を作成] をクリックして [サービスレベル目標(SLO)の作成] パネルを開きます。
SLO を作成するフォームの入力については、SLO の作成ガイドをご覧ください。
ログ エクスプローラでログを表示する
クラスタのログデータは、ログ エクスプローラで検索して表示できます。ログ エクスプローラを使用すると、ログの表示、ログデータの解析と分析、クエリ パラメータの絞り込みを行うことができます。
ログ エクスプローラの使用方法の詳細については、Logging のドキュメントをご覧ください。
トラブルシューティング
トラブルシューティング情報については、GKE ダッシュボードのトラブルシューティングをご覧ください。