GKE クラスタの観察

このページでは、GKE 用 Cloud Operations と以前の Logging および Monitoring のモニタリング ダッシュボードにアクセスする方法について説明します。また、GKE 用 Cloud Operations のモニタリング ダッシュボードの使用方法についても説明します。

モニタリング ダッシュボードへのアクセス

  1. Cloud Console から、[Monitoring] に移動します。

    [Monitoring] に移動

  2. [ダッシュボード] を選択し、次のいずれかのダッシュボードを選択します。

    • GKE 用 Cloud Operations が有効になっているクラスタの場合は [GKE] ダッシュボードを選択します。

    • 以前の Logging と Monitoring が有効になっているクラスタの場合は、[GKE Clusters] を選択します。

    クラスタが表示されない場合や、クラスタ内のすべてのリソースが表示されない場合は、GKE ダッシュボードのトラブルシューティングをご覧ください。

GKE 用 Cloud Operations ダッシュボードのインターフェース

GKE 用 Cloud Operations ダッシュボードは次の部分に分かれています。

GKE 用 Cloud Operations ダッシュボードの表形式ビューを表示します。

  1. フィルタバーでは、ダッシュボード内でフィルタリングする GKE リソースを選択できます。

  2. [アラートのスケジュール] では、ダッシュボードに特定の時間枠を選択して、その時間枠に発生したアラートの概要を表示できます。

  3. GKE フリートが、クラスタ、Namespace、ノード、ワークロード、Namespace、Pod、コンテナ別に表示されます。各行に、1 つのリソースと指標が表示されます。行をクリックするとパネルが開き、そのリソースに関する詳細が表示されます。

フィルタバー

フィルタバーを使用すると、ダッシュボードに表示される GKE リソースをフィルタリングして、必要なデータを表示できます。また、選択したフィルタに関連するクラスタ内の他のリソースの情報も表示されます。

フィルタバーを使用する

ダッシュボード内のデータをフィルタリングするには、次の手順を行います。

  1. フィルタバーをクリックして、フィルタ オプションを表示します。

    フィルタ オプションを表示します。

  2. フィルタリングする Kubernetes リソースを選択し、リソース名を選択します。

    同じ名前のリソースが複数ある場合は、フィルタリングするリソースのインスタンスを選択します。

  3. [適用] をクリックします。

    ダッシュボードが更新され、更新された情報が表示されます。

フィルタバーを使用する際は、次の点に注意してください。

  • ダッシュボードにフィルタを適用した後、フィルタバーをもう一度クリックすると、追加のリソースをフィルタリングできます。

  • リソースによってはオプションが多すぎるため、フィルタ メニューに一部しか表示されない場合があります。その場合は、まず親リソースでフィルタリングして、オプションを絞り込む必要があります。たとえば、表示する Pod が多すぎる場合は、まず、クラスタまたはその他の Kubernetes リソースでフィルタリングして、Pod のリストを絞り込みます。

  • フィルタリングするリソースによっては、各フィルタ文字列の範囲を明確にするため、フィルタ インターフェースにデフォルトで追加のフィルタが表示されることがあります。たとえば、特定の Namespace でフィルタリングすると、その Namespace が存在するクラスタが追加されます。

    システムによって選択された追加のフィルタ オプションが表示されます。

アラートのスケジュール

[アラートのスケジュール] には、クラスタ内のアラートが表示されます。アラートのタイムラインには、選択した期間内に発生したアラート違反が表示されます。タイムラインの赤い領域にポインタを置くと、次のようにイベントカードが表示されます。

Kubernetes アラートのタイムライン ビューの使用。

各イベントカードには、タイムラインに表示される 1 件のアラートに関する詳細情報が表示されます。

期間のプルダウン メニューを使用すると、アラートのスケジュールとダッシュボード内のテーブルに期間を設定できます。

イベントカードを使用する

アラートのスケジュールにカーソルを合わせると、アラート違反ごとにイベントカードが表示されます。 のアラートはインシデントが未解決であることを表しています。 のアラートは、インシデントが解決済みであることを示しています。

選択した時間枠に複数のアラートがある場合は、マウスホイールを使用してイベントカードをスクロールできます。[すべてのアラートを表示] をクリックして、すべてのイベントカードをパネルに表示することもできます。

[アラート] でアラート インシデントを表示するには、[View incident] をクリックします。

[Associated resource] セクションのイベントカードに、アラートが関連付けられているリソースが表示されます。ダッシュボードで、アラートが関連付けられているリソースを確認できない場合は、イベントカードに [Update alert policy] リンクが表示されます。このリンクをクリックすると、[アラート ポリシーを編集] ページに移動します。ここで、アラート ポリシーの情報を更新し、ダッシュボードに関連リソースが表示されるようにします。

ダッシュボード テーブル

ダッシュボードでは、GKE リソースごとに指標テーブルが表示されます。このテーブルには次の列が表示されます。

  • 名前: リソースの表示名。

  • アラート: 選択した期間内にリソースとその子に対して発生したアラートと確認済みのアラートの数。

  • サービスレベル目標(SLO): 選択したサービスレベル指標(SLI)を通じて測定される、サービスに対して求められるパフォーマンスのステートメント。

  • コンテナの再起動回数: 選択した時間内にコンテナが再起動した回数。

  • エラーログ: 選択した期間に基づいてエンティティに関連付けられたエラーログの数。

  • CPU 使用率: 選択した期間内でリソースに関連するコンテナの CPU 使用率。

    • 使用される指標は kubernetes.io/container/cpu/request_utilization です。
  • メモリ使用率: 選択した期間内でリソースに関連するコンテナのメモリ使用率。

    • 使用される指標は kubernetes.io/container/memory/request_utilization です。
  • ディスク使用率: 選択した期間内でリソースに関連する Pod のディスク使用率。前の列とは異なり、この指標は Pod によって生成されます。この指標は [コンテナ] テーブルに表示されません。

    • 使用される指標は kubernetes.io/pod/volume/utilization です。

使用率に関する列については、次の点に注意してください。

  • これらの列では比率は示されません。2 つの異なるデータポイントが / で区切られて表示されます。最初の数字は、そのリソースに対してリクエストされた合計容量を表します。2 番目の数値は、リクエストされた容量の使用率を表します。

  • スパークラインには、そのページで選択した期間中の使用率データが表示されます。

ダッシュボード テーブルの構成

ダッシュボード内のテーブルは、最も関心のある情報が表示されるように構成できます。フィルタバーの横にある [Configure resource tables] プルダウン メニューを使用して、表示する列を選択できます。また、テーブルにスパークラインを表示するかどうかも選択できます。

なお、これらの構成は、ダッシュボード内のすべてのテーブルに適用されます。

[Configure resource tables] プルダウン メニューの表示。

テーブルを構成する手順は次のとおりです。

  1. [Configure resource tables] プルダウン メニューを選択します。

  2. テーブルに表示する列を選択します。

    [名前] 列と [有効なアラート] 列は必須です。

  3. スパークラインを表示するかどうかを選択します。

  4. 変更を適用するには [Apply] をクリックします。

リソースの詳細の表示

GKE 用 Cloud Operations ダッシュボードには、デフォルトで各 Kubernetes リソースの概要行が表示されます。テーブル内の行をクリックすると、そのリソースの詳細が表示されます。

リソースの詳細の表示。

リソースの詳細パネルに、選択したリソースに関する情報が表示されます。また、発生したアラートの情報を表示する [Alerts] タブ、選択したリソースに関連付けられている Kubernetes イベントを表示する [Events] タブがあります。グラフで指標を表示する [Metrics] タブ、リソースによって生成されたログを表示する [Logs] タブもあります。

[アラート] でアラート インシデントを表示するには、[アラートを表示] をクリックします。

Kubernetes イベントを表示する

リソース詳細パネルの [イベント] タブには、リソースに関連付けられた Kubernetes イベントが表示されます。Kubernetes イベントは、コンテナ以外のすべてのリソースで使用できます。

リソースの詳細を表示する [イベント] タブの表示。

[イベント] タブには、各イベントに関する情報を表示するカードが表示されます。イベントが下位のリソースで発生した場合は、関連リソースへのリンクもカードに表示されます。[ログを表示] をクリックしてログ エクスプローラを開き、イベントに関連付けられたログを表示できます。[メッセージをコピー] をクリックして、ログメッセージをクリップボードにコピーすることもできます。

ログ エクスプローラのすべてのイベントを表示するには、[Logging で表示] をクリックします。ログ エクスプローラが開き、Kubernetes イベントに関連するすべてのログが表示されます。

SLO の管理

サービスレベル目標(SLO)を使用してアプリケーションの健全性とパフォーマンスを追跡できます。[サービスレベル目標(SLO)] 列を表示するようにダッシュボードを構成すると、アプリケーションが SLO を満たしているかどうかを確認できます。リソースの SLO は、次のいずれかのステータスになります。

  • 正常: リソースが指定された SLO を満たすことを示します。このステータスは緑色のインジケーターで表示されます。

  • エラー バジェットの範囲外: リソースがエラー バジェットを使い切ったことを示します。つまり、不良イベントがさらに発生すると、リソースが SLO に違反することになる可能性があります。このステータスは黄色のインジケーターで表示されます。

  • 異常: リソースが SLO の範囲外で、かつアラートが発生していることを示します。このステータスは赤色のインジケーターで表示されます。

  • ステータスがありません: その SLO に対するデータが存在しないことを示します。このステータスは灰色のインジケーターで表示されます。

これらのコンセプトの詳細については、サービスのモニタリングにおけるコンセプトをご覧ください。

SLO の詳細

NamespaceWorkloadKubernetes Service の Kubernetes リソースに対してのみ、SLO を定義できます。リソースの SLO コンプライアンスに関する詳細情報を表示するには、リソースをクリックして詳細パネルを開きます。詳細パネルで [SLO] タブをクリックします。

詳細パネルにある [SLO] タブの表示

SLO を作成

Kubernetes リソースの SLO は、Cloud Operations for GKE のモニタリング ダッシュボードから作成できます。

[GKE ダッシュボード] ページで、Kubernetes リソースの行で をクリックして [サービスレベル目標(SLO)の作成] パネルを表示します。

リソースの詳細パネルで、[SLO を作成] をクリックして [サービスレベル目標(SLO)の作成] パネルを開きます。

SLO 作成パネルの表示

SLO を作成するフォームの入力については、SLO の作成ガイドをご覧ください。

トラブルシューティング

トラブルシューティング情報については、GKE ダッシュボードのトラブルシューティングをご覧ください。