GKE クラスタの観察

このページでは、Google Kubernetes Engine の Cloud Monitoring ダッシュボードにアクセスする方法とモニタリング ダッシュボードの使用方法について説明します。

モニタリング ダッシュボードへのアクセス

  1. Google Cloud コンソールで [Monitoring] を選択し、 [ダッシュボード] を選択するか、次のボタンをクリックします。

    [ダッシュボード] に移動

  2. GKE」という名前のダッシュボードを選択します。

    クラスタが表示されない場合や、クラスタ内のすべてのリソースが表示されない場合は、GKE ダッシュボードのトラブルシューティングをご覧ください。

GKE ダッシュボード インターフェース

GKE ダッシュボードは複数の部分に分かれています。

GKE ダッシュボードの表形式ビューを表示します。

  1. フィルタバーでは、ダッシュボード内でフィルタリングする GKE リソースを選択できます。

  2. [アラートのスケジュール] では、ダッシュボードに特定の時間枠を選択して、その時間枠に発生したアラートの概要を表示できます。

  3. GKE フリートが、クラスタ、Namespace、ノード、ワークロード、Namespace、Pod、コンテナ別に表示されます。各行に、1 つのリソースと指標が表示されます。行をクリックするとパネルが開き、そのリソースに関する詳細が表示されます。

フィルタバー

フィルタバーを使用すると、ダッシュボードに表示される GKE リソースをフィルタリングして、必要なデータを表示できます。また、選択したフィルタに関連するクラスタ内の他のリソースの情報も表示されます。

フィルタバーを使用する

ダッシュボード内のデータをフィルタリングするには、次の手順を行います。

  1. フィルタバーをクリックして、フィルタ オプションを表示します。

    フィルタ オプションを表示します。

  2. フィルタリングする Kubernetes リソースを選択し、リソース名を選択します。

    同じ名前のリソースが複数ある場合は、フィルタリングするリソースのインスタンスを選択します。

  3. [適用] をクリックします。

    ダッシュボードが更新され、更新された情報が表示されます。

フィルタバーを使用する際は、次の点に注意してください。

  • ダッシュボードにフィルタを適用した後、フィルタバーをもう一度クリックすると、追加のリソースをフィルタリングできます。

  • リソースによってはオプションが多すぎるため、フィルタ メニューに一部しか表示されない場合があります。その場合は、まず親リソースでフィルタリングして、オプションを絞り込む必要があります。たとえば、表示する Pod が多すぎる場合は、まず、クラスタまたはその他の Kubernetes リソースでフィルタリングして、Pod のリストを絞り込みます。

  • フィルタリングするリソースによっては、各フィルタ文字列の範囲を明確にするため、フィルタ インターフェースにデフォルトで追加のフィルタが表示されることがあります。たとえば、特定の Namespace でフィルタリングすると、その Namespace が存在するクラスタが追加されます。

    システムによって選択された追加のフィルタ オプションが表示されます。

アラートのスケジュール

[アラートのスケジュール] には、クラスタ内のアラートが表示されます。アラートのタイムラインには、選択した期間内に発生したアラート違反が表示されます。タイムラインの赤い領域にポインタを置くと、次のようにイベントカードが表示されます。

Kubernetes アラートのタイムライン ビューの使用。

各イベントカードには、タイムラインに表示される 1 件のアラートに関する詳細情報が表示されます。

期間のプルダウン メニューを使用すると、アラートのスケジュールとダッシュボード内のテーブルに期間を設定できます。

イベントカードを使用する

アラートのスケジュールにカーソルを合わせると、アラート違反ごとにイベントカードが表示されます。 のアラートはインシデントが未解決であることを表しています。 のアラートは、インシデントが解決済みであることを示しています。

選択した時間枠に 3 つ以上のアラートがある場合は、マウスホイールでイベントカードをスクロールできます。[すべてのアラートを表示] をクリックして、すべてのイベントカードをパネルに表示することもできます。

[アラート] でアラート インシデントを表示するには、[インシデントを表示] をクリックします。

[Associated resource] セクションのイベントカードに、アラートが関連付けられているリソースが表示されます。ダッシュボードで、アラートが関連付けられているリソースを確認できない場合は、イベントカードに [Update alert policy] リンクが表示されます。このリンクをクリックすると、[アラート ポリシーを編集] ページに移動します。ここで、アラート ポリシーの情報を更新し、ダッシュボードに関連リソースが表示されるようにします。

ダッシュボード テーブル

ダッシュボードでは、GKE リソースごとに指標テーブルが表示されます。このテーブルには次の列が表示されます。

  • 名前: リソースの表示名。

  • アラート: 選択した期間内にリソースとその子に対して発生したアラートと確認済みのアラートの数。

  • サービスレベル目標(SLO): 選択したサービスレベル指標(SLI)を通じて測定される、サービスに対して求められるパフォーマンスのステートメント。

  • コンテナの再起動回数: 選択した時間内にコンテナが再起動した回数。

  • エラーログ: 選択した期間に基づいてエンティティに関連付けられたエラーログの数。

  • CPU 使用率: 選択した期間内でリソースに関連するコンテナの CPU 使用率。

  • メモリ使用率: 選択した期間内でリソースに関連するコンテナのメモリ使用率。

    • 使用される指標は kubernetes.io/container/memory/request_utilization です。メモリには強制排除可能と非強制排除不可の 2 種類があります。強制排除可能なメモリとは、使用率が高すぎる場合にリソースから削除されるメモリです。強制排除不可のメモリでは、使用量が上限を超えると、コンテナが終了する可能性があります。リソースの上限については、リクエストと上限をご覧ください。
  • ディスク使用率: 選択した期間内でリソースに関連する Pod のディスク使用率。前の 2 つの列とは異なり、この指標は Pod によって作成され、コンテナ テーブルには表示されません。

使用率に関する列については、次の点に注意してください。

  • これらの列では比率は示されません。2 つの異なるデータポイントが / で区切られて表示されます。最初の数字は、そのリソースに対してリクエストされた合計容量を表します。2 番目の数値は、リクエストされた容量の使用率を表します。

  • スパークラインには、そのページで選択した期間中の使用率データが表示されます。

ダッシュボード テーブルの構成

ダッシュボード内のテーブルは、最も関心のある情報が表示されるように構成できます。フィルタバーの横にある [Configure resource tables] プルダウン メニューを使用して、表示する列を選択できます。また、テーブルにスパークラインを表示するかどうかも選択できます。

なお、これらの構成は、ダッシュボード内のすべてのテーブルに適用されます。

[Configure resource tables] プルダウン メニューの表示。

テーブルを構成する手順は次のとおりです。

  1. [Configure resource tables] プルダウン メニューを選択します。

  2. テーブルに表示する列を選択します。

    [名前] 列と [有効なアラート] 列は必須です。

  3. スパークラインを表示するかどうかを選択します。

  4. 変更を適用するには [Apply] をクリックします。

リソースの詳細の表示

GKE ダッシュボードには、デフォルトで各 Kubernetes リソースの概要行が表示されます。テーブル内の行をクリックすると、そのリソースの詳細が表示されます。

リソースの詳細の表示。

リソースの詳細パネルに、選択したリソースに関する情報が表示されます。また、発生したアラートの情報を表示する [ALERTS] タブ、選択したリソースに関連付けられている Kubernetes イベントを表示する [イベント] タブがあります。グラフで指標を表示する [指標] タブ、リソースによって生成されたログを表示する [ログ] タブもあります。

[アラート] でアラート インシデントを表示するには、[アラートを表示] をクリックします。

Kubernetes イベントの表示

リソース詳細パネルの [イベント] タブには、リソースに関連付けられた Kubernetes イベントが表示されます。Kubernetes イベントは、コンテナ以外のすべてのリソースで使用できます。

リソース詳細の [イベント] タブの表示。

[イベント] タブには、各イベントに関する情報を表示するカードが表示されます。また、イベントが下位のリソースで発生した場合、関連するリソースへのリンクもカードに表示されます。[ログを表示] をクリックしてログ エクスプローラを開き、イベントに関連付けられたログを表示できます。[メッセージをコピー] をクリックして、ログメッセージをクリップボードにコピーすることもできます。

ログ エクスプローラですべてのイベントを表示するには、[ロギングで表示] をクリックします。ログ エクスプローラが開き、Kubernetes イベントに関連付けられているすべてのログが表示されます。

SLO の管理

サービスレベル目標(SLO)を使用してアプリケーションの健全性とパフォーマンスを追跡できます。[サービスレベル目標(SLO)] 列を表示するようにダッシュボードを構成すると、アプリケーションが SLO を満たしているかどうかを確認できます。リソースの SLO は、次のいずれかのステータスになります。

  • 正常: リソースが指定された SLO を満たすことを示します。このステータスは緑色のインジケーターで表示されます。

  • エラー バジェットの範囲外: リソースがエラー バジェットを使い切ったことを示します。つまり、不良イベントがさらに発生すると、リソースが SLO に違反することになる可能性があります。このステータスは黄色のインジケーターで表示されます。

  • 異常: リソースが SLO の範囲外で、かつアラートが発生していることを示します。このステータスは赤色のインジケーターで表示されます。

  • ステータスがありません: その SLO に対するデータが存在しないことを示します。このステータスは灰色のインジケーターで表示されます。

これらのコンセプトの詳細については、サービスのモニタリングにおけるコンセプトをご覧ください。

SLO の詳細

NamespaceWorkloadKubernetes Service の Kubernetes リソースに対してのみ、SLO を定義できます。リソースの SLO コンプライアンスに関する詳細情報を表示するには、リソースをクリックして詳細パネルを開きます。詳細パネルで [SLO] タブをクリックします。

詳細パネルにある [SLO] タブの表示

SLO を作成する

GKE モニタリング ダッシュボードから Kubernetes リソースの SLO を作成できます。

GKE ダッシュボード ページで、Kubernetes リソースの行で をクリックして [サービスレベル目標(SLO)の作成] パネルを表示します。

リソースの詳細パネルで、[SLO を作成] をクリックして [サービスレベル目標(SLO)の作成] パネルを開きます。

SLO 作成パネルの表示

SLO を作成するフォームの入力については、SLO の作成ガイドをご覧ください。

ログ エクスプローラでログを表示する

クラスタのログデータは、ログ エクスプローラで検索して表示できます。ログ エクスプローラを使用すると、ログの表示、ログデータの解析と分析、クエリ パラメータの絞り込みを行うことができます。

ログ エクスプローラの使用方法の詳細については、Logging のドキュメントをご覧ください。

トラブルシューティング

トラブルシューティング情報については、GKE ダッシュボードのトラブルシューティングをご覧ください。