インシデント

インシデントは、アラート ポリシーをトリガーするレコードです。アラート ポリシーの条件が満たされると、Cloud Monitoring によってインシデントが開かれます。

このページでは、インシデントを表示、管理する方法について説明します。

インシデントの検索

インシデントのリストを検索する手順は次のとおりです。

  1. Cloud Console のツールバーで、[ナビゲーション メニュー] をクリックし、[モニタリング] を選択します。

    [Monitoring] に移動

  2. [Monitoring] のナビゲーション ペインで、[ アラート]を選択します。

    アラート ダッシュボード ページの [概要] ペインには、対応待ちのインシデントの数が、[インシデント] テーブルには最新のインシデントが表示されます。デフォルトでは、クローズされたインシデントは表示されません。クローズされたインシデントをテーブルに追加するには、[Show closed incidents] をクリックします。

過去のインシデントの検索

[アラート] ページの [Incidents] テーブルには、最新のインシデントのみが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

  • [Newer] または [Older] をクリックして、[インシデント] テーブル内のエントリをページ順に移動します。

  • [すべてのインシデントを表示] をクリックして [インシデント] ページに移動します。

    デフォルトでは、このテーブルには開いているインシデントがすべて表示されます。クローズされたインシデントをテーブルに追加するには、[クローズされたインシデントを表示] をクリックします。

    一覧表示されるインシデントを制御するには、フィルタを追加します。詳しくは、インシデントのフィルタリングをご覧ください。

    このテーブルからインシデントまたはアラート ポリシーを管理するには、インシデントの行で [その他のオプション] をクリックし、オプション メニューから項目を選択します。 インシデントの承認または拒否の詳細については、インシデントの管理をご覧ください。

インシデントのフィルタリング

インシデントのテーブルをフィルタリングするには、次の手順に従います。

  1. [インシデント] ページで、 [表をフィルタリング] をクリックし、フィルタリング属性を選択します。次の項目でフィルタリングできます。

    • インシデントの状態
    • アラート ポリシーの名前
    • インシデントが開かれた、または閉じられた日時
    • 指標タイプ
    • リソースの種類
  2. セカンダリ メニューから値を選択するか、フィルタバーに値を入力します。フィルタバーに値を入力すると、オプションのリストには、入力した値を含むオプションのみが表示されます。

    たとえば、[指標タイプ] を選択して「usage_time」と入力した場合、セカンダリ メニューには次のオプションのみが表示されます。

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time

複数のフィルタを追加した場合、すべてのフィルタを満たす場合にのみインシデントが表示されます。

インシデントの調査

調査するインシデントが見つかったら、そのインシデントの[インシデントの詳細]ページに移動します。詳細を表示するには、[アラート] ページまたは [インシデント] ページのインシデントの表でインシデントの概要をクリックします。

次のスクリーンショットは、インシデントの詳細ページを示しています。

詳細ページには、インシデントの要約情報と調査ツールが表示されます。

[インシデントの詳細] ページには、次の情報が表示されます。

  • 次のようなステータス情報:

    • 名前: このインシデントが発生したアラート ポリシーの名前。
    • ステータス: インシデントのステータス(対応待ち、確認済み、終了)。
    • 期間: インシデントが開かれていた期間。
  • インシデントの原因となったアラート ポリシーに関する情報:

    • 条件: インシデントを引き起こしたアラート ポリシーの条件。
    • メッセージ: アラート ポリシーの条件の構成に基づく原因の簡単な説明。このペインには、値が常に入力されます。
    • ドキュメント: アラート ポリシーの作成時に提供される通知のドキュメント(省略可)。この情報には、アラート ポリシーでモニタリングする内容の説明と、緩和策のヒントが含まれる場合があります。ドキュメントはオプションなので、このペインは空である可能性があります。
  • ラベル: モニタリング対象リソースと、アラート ポリシーをトリガーした時系列のラベルと値。この情報は、インシデントの原因となった特定のモニタリング対象リソースを特定するのに役立ちます。

[インシデント詳細] ページには、インシデント調査用のツールもあります。

  • インシデント タイムライン: インシデントの 2 つの視覚的表現が表示されます。

    • 時間軸の上の赤いバーがインシデントを表し、バーの長さと位置にはインシデントの期間が反映されます。
    • グラフは、インシデントの原因となったアラート ポリシーで使用される時系列データとしきい値を示しています。このインシデントは、いくつかの時系列でアラート ポリシーの条件が満たされたときに開かれました。

    時間軸は、2 つのラベル付きドットが付いたインシデントの所要時間を示します。時間軸上の点の位置によって、インシデント タイムラインに沿ったグラフに表示されるデータの範囲が決まります。デフォルトでは、インシデントの開始時とインシデント終了時に、またインシデントがオープン状態であれば現在の時刻に 1 つのドットが配置されます。

    インシデント タイムラインとグラフの時間範囲を変更できます。

    • グラフに表示される時間範囲を変更するには、時間軸に沿っていずれかの点をドラッグします。この手法を使用すると、インシデントの開始時や終了時など、特定の間隔に焦点を合わせることができます。

      軸の点をドラッグしてグラフを変更すると、[期間] メニューにカスタム値が設定され、メニューが無効になります。[期間] メニューを有効にするには、[リセット] をクリックします。

    • タイムラインに表示される期間を変更するには、[期間] メニューから範囲を選択します。

  • 他のトラブルシューティング ツールへのリンク。使用できるアラートは、プロジェクトとアラート ポリシーの構成とインシデントの存続期間によって決まります。

    • アラート ポリシーの詳細を表示するには、[ポリシーを表示] をクリックします。
    • アラート ポリシーの定義を編集するには、[ポリシーを編集] をクリックします。
    • リソースのパフォーマンス情報のダッシュボードに移動するには、[リソースの詳細を表示] をクリックします。
    • Logs Explorer で関連するログエントリを表示するには、[ログを表示] アイコンをクリックします。詳細については、Logs Explorer の使用をご覧ください。
    • グラフのデータを調べるには、[Metrics Explorer で表示] をクリックします。
  • アノテーション: インシデント調査による、結果、提案、その他のコメントのログ。

    • アノテーションを追加するには、フィールドにテキストを入力し、[コメントを追加] をクリックします。
    • コメントを破棄するには、[キャンセル] をクリックします。

[インシデントの詳細] ページから、インシデントの承認または拒否を行うこともできます。詳しくは、インシデントの管理をご覧ください。

インシデントの管理

インシデントの状態には、次の 3 つがあります。

  • オープン: ポリシーの条件のセットが満たされているか、条件が満たされなくなったことを示すデータが存在しません。ポリシーに複数の条件が含まれている場合は、条件の組み合わせに応じてインシデントが開かれます。詳しくは、条件の組み合わせをご覧ください。

  • 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。

  • 完了済み: 条件が満たされなくなったとシステムが判断した場合、または条件が満たされているとのモニタリング結果がないままさらに 7 日間が経過しました。

アラート ポリシーを構成する場合は、すべてが正常な状態になった安定状態であることを示すシグナルが生成されるようにします。これは、エラーのない状態を識別し、インシデントが開いている場合にそのインシデントをクローズできるようにするために必要となります。エラー状態が停止されたことを示すシグナルがない場合、インシデントが開かれた後、ポリシーが発行されてから 7 日間は開かれたままとなります。

たとえば、エラー数が 0 を超えた場合に通知するポリシーを作成する場合は、エラーがない場合に 0 個のエラーを生成するようにします。エラーがない状態でポリシーが null または空を返す場合は、エラーがいつ終了したかを示すシグナルは存在しません。状況によっては、Monitoring Query Language(MQL)で、測定された値を取得できない場合に使用されるデフォルト値を指定できる場合があります。例については、比率の使用をご覧ください。

インシデントの確認

インシデントに確認済みのマークを付けるには、次の手順を行います。

  • [アラート] ダッシュボードの [インシデント] パネルで [すべてのインシデントを表示] をクリックします。[インシデント] ウィンドウが開きます。
  • インシデントを確認するには、次のいずれかを行います。

    • 確認するインシデントの [その他のオプション] を選択し、[確認] を選択します。
    • 確認するインシデントの詳細ページを開き、[Acknowledge incident] をクリックします。

インシデントを確認するには、モニタリング編集者の役割 roles/monitoring.editor が必要です。詳細は、アクセス制御: 事前定義された役割をご覧ください。

条件のミュート

条件をミュートすると、その条件付きの対応待ちのすべてのインシデントがミュート状態になり、条件が満たされてもアラート通知は届きません。条件をミュートすると、アクティブなインシデントの表示からインシデントが削除されます。インシデントを調査する場合は、ミュートするのではなく、インシデントを確認する必要があります。

インシデントをミュートしても、インシデントの根本原因は調整されません。すなわち、インシデントを生成した条件が次のアラート サイクルで引き続き満たされる場合、インシデントが再び開かれます。

条件をミュートするには:

  • [アラート] ダッシュボードの [インシデント] ペインで [See all incidents] をクリックします。
  • [インシデント] ページで確認するインシデントを探して、[その他のオプション] をクリックし、[関連する条件が機能しないようにする] を選択します。

インシデントのクローズ

インシデントは自動的にクローズされます。インシデントをクローズすることはできません 条件が満たされなくなったとシステムが判断した場合、または条件が満たされているとのモニタリング結果がないままさらに 7 日間が経過すると、インシデントはクローズされます。

たとえば、連続する 10 分間に HTTP レイテンシが 2 秒を超える場合にインシデントを生成するように構成されているアラート ポリシーがあり、インシデントが開かれたとします。HTTP レイテンシの次の測定値が 2 秒以下の場合、インシデントはクローズされます。同様に、7 日間データがまったく受信されなかった場合、インシデントはクローズされます。

次のステップ