指標ベースのアラートのインシデント

インシデントは、アラート ポリシーのトリガーの記録です。Cloud Monitoring は、アラート ポリシーの条件が満たされたときにインシデントを開きます。

このページでは、指標ベースのアラート ポリシーのインシデントを表示、調査、管理する方法について説明します。

インシデントの検出

インシデントを一覧表示するには、次のようにします。

  1. Cloud Console のツールバーで、[ナビゲーション メニュー] をクリックし、[モニタリング] を選択します。

    [Monitoring] に移動

  2. [Monitoring] のナビゲーション ペインで、 [アラート] を選択します。

    • [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
    • [Incidents] ペインには、最新のインシデントが表示されます。表で終了したインシデントを非表示にするには、[HIDE CLOSED INCIDENTS] をクリックします。

古いインシデントの検出

[アラート] ページの [インシデント] ペインに、最新の対応待ちのインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

  • [Incidents] テーブルで、 [Newer] または [Older] をクリックすることでページを切替えてエントリを確認する。

  • [See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作を行えます。

    • 終了したインシデントを非表示にする: テーブルに対応待ちのインシデントのみを表示するには、[HIDE CLOSED INCIDENTS] をクリックします。
    • インシデントをフィルタする: フィルタの追加については、インシデントのフィルタリングをご覧ください。
    • インシデントを確認、ミュート、またはクローズする: このオプションにアクセスするには、インシデントの行で [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントの管理をご覧ください。

インシデントのフィルタリング

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

Incidents テーブルのフィルタを追加するには、次のようにします。

  1. [インシデント] ページで [表をフィルタリング] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のものがあります。

    • インシデントの状態
    • アラート ポリシーの名前
    • インシデントの開始日、終了日
    • 指標タイプ
    • リソースの種類
  2. サブメニューの値を選択するか、フィルタバーに値を入力します。

    たとえば、[指標タイプ] を選択して「usage_time」と入力すると、サブメニューには次のオプションのみが表示されます。

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

インシデントの調査

インシデントの詳細を表示するには、少なくとも roles/monitoring.viewer の Identity and Access Management ロールを付与されている必要があります。詳細については、権限エラーのためインシデントの詳細を表示できませんをご覧ください。

調査するインシデントが見つかったら、そのインシデントの[インシデントの詳細]ページに移動します。詳細を表示するには、[アラート] ページまたは [インシデント] ページのインシデントの表でインシデントの概要をクリックします。

インシデントへのリンクが含まれた通知を受信した場合は、そのリンクをクリックしてインシデントの詳細を表示します。

次のスクリーンショットは、インシデントの詳細ページを示しています。

詳細ページには、インシデントの概要情報と調査ツールが表示されます。

[インシデントの詳細] ページには、次の情報が表示されます。

  • 次のようなステータス情報:

    • 名前: このインシデントを引き起こしたアラート ポリシーの名前。
    • ステータス: インシデントのステータス(対応待ち、確認済み、終了)。
    • 期間: インシデントが開かれていた期間。
  • インシデントを引き起こしたアラート ポリシーに関する情報。

    • 条件: インシデントを引き起こしたアラート ポリシーの条件。
    • メッセージ: アラート ポリシーの条件構成に基づいた原因の簡単な説明。このペインには常に値が入力されます。
    • ドキュメント: アラート ポリシーの作成時に記述する通知のドキュメント(オプション)。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。アラート ポリシーを作成するときにこのフィールドを省略した場合、このペインのテキストは「No documentation is configured」になります。
  • ラベル: アラート ポリシーをトリガーした時系列の、モニタリング対象リソースと指標のラベルと値。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。

[インシデント詳細] ページには、インシデント調査用のツールもあります。

  • インシデントのタイムライン: インシデントを 2 種類の視覚表現で表示します。

    • 時間軸の上の赤いバーがインシデントを表し、バーの長さと位置にはインシデントの期間が反映されます。
    • グラフには、インシデントを引き起こしたアラート ポリシーで使用される時系列データとしきい値が表示されます。インシデントは、時系列の一部がアラート ポリシーの条件を満たしたときに開始されています。

    時間軸は、インシデントの継続時間を示し、ラベル付きの丸が 2 つ付加されます。この 2 つの丸の時間軸上の位置によって、インシデントのタイムラインに沿ったグラフに表示されるデータの範囲が決まります。デフォルトでは、インシデントの開始時とインシデント終了時にそれぞれ丸が付けられます。また、インシデントがオープン状態の場合は、現在時刻に丸が付けられます。

    インシデント タイムラインとグラフの時間範囲は、次のように変更できます。

    • グラフに表示される期間を変更するには、時間軸に沿ってどちらかの丸をドラッグします。この手法を使用することで、インシデントの開始や終了の前後など、特定の時間に集中できます。

      軸上の丸をドラッグしてグラフを変更すると、[Time Span] メニューにはカスタム値が設定され、メニューが無効になります。[Time Span] メニューを有効にするには、[RESET] をクリックします。

    • タイムラインに表示される期間を変更するには、[Time Span] メニューで期間を選択します。

  • 他のトラブルシューティング ツールへのリンク。利用可能なリンクは、プロジェクトとアラート ポリシーの構成、インシデントの期間によって決まります。
    • アラート ポリシーの詳細を確認するには、[ポリシーを表示] をクリックします。
    • アラート ポリシーの定義を編集するには、[ポリシーを編集] をクリックします。
    • リソースのパフォーマンス情報のダッシュボードに移動するには、[リソースの詳細を表示] をクリックします。
    • ログ エクスプローラで関連するログエントリを表示するには、[ログを表示] をクリックします。詳細については、ログ エクスプローラの使用をご覧ください。
    • グラフ内のデータを調べるには、[Metrics Explorer で表示する] をクリックします。
  • アノテーション: インシデント調査による、知見、結果、提案、その他のコメントのログを提供します。
    • アノテーションを追加するには、フィールドにテキストを入力して、[コメントを追加] をクリックします。
    • コメントを破棄するには、[キャンセル] をクリックします。

また、[インシデントの詳細] ページでインシデントを確認、ミュート、またはクローズすることもできます。詳細については、インシデントの管理をご覧ください。

インシデントの管理

インシデントは次のいずれかの状態になります。

  • オープン: ポリシーの一連の条件が満たされる途中にあるか、条件が満たされなくなったことを示すデータが存在しません。ポリシーに複数の条件が含まれている場合は、条件の組み合わせに応じてインシデントが開かれます。詳しくは、条件の組み合わせをご覧ください。

  • 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。

  • 終了済み: システムにより条件を満たすことが終了し、インシデントをクローズしたと判断されたか、満たされるべき条件の継続が見られないまま 7 日間が経過しました。

アラート ポリシーを構成する場合は、安定状態によってすべてが正常な状態であることを示すシグナルが生成されるようにします。これは、エラーのない状態を識別し、インシデントが開いている場合にそのインシデントをクローズできるようにするために必要となります。エラー状態が停止されたことを示すシグナルがない場合、インシデントが開かれた後、ポリシーが発行されてから 7 日間は開かれたままとなります。

たとえば、エラー数が 0 を超えたときに通知するポリシーを作成する場合、エラーがないときはエラー数が 0 になるようにします。エラーがない状態でポリシーが null または空を返す場合は、エラーがいつ終了したかを示すシグナルは存在しません。状況によっては、Monitoring Query Language(MQL)で、測定値が使用できないときに使用されるデフォルト値を指定できます。例については、比率の使用をご覧ください。

インシデントを管理するには、役割に monitoring.alertPolicy.create 権限または monitoring.alertPolicy.update 権限を含める必要があります。これらの権限は、モニタリング編集者の役割 roles/monitoring.editor に含まれています。役割と権限の詳細については、アクセス制御: 事前定義された役割をご覧ください。

インシデントの確認

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の手順を行います。

  • [アラート] ダッシュボードの [インシデント] ペインで [See all incidents] をクリックします。
  • [インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。

    • [More options]()をクリックし、つづいて [Acknowledge] を選択します。
    • インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。

インシデントのミュート

アラート ポリシーの条件に関連付けられたすべての未解決のインシデントを閉じるには、その条件に関連付けられた 1 つのインシデントをミュートします。たとえば、アラート ポリシーに 10 個の時系列をモニタリングする 1 つの条件があるとします。いずれかのしきい値が 1 つのしきい値を超えた場合、条件は満たされます。時系列の 5 つがしきい値を超えると、5 つのインシデントが作成されます。これらのインシデントのいずれかをミュートすると、5 つのインシデントがすべて閉じられます。

インシデントをミュートしても、インシデントの根本原因は調整されません。つまり、そのアラート ポリシーの条件が次のアラート サイクルで満たされた場合、その条件のインシデントが開きます。

アラート ポリシーに複数の条件が含まれている場合、1 つの条件のインシデントをミュートしても、他の条件のインシデントは終了しません。

インシデントをミュートするには、次のようにします。

  • [アラート] ダッシュボードの [インシデント] ペインで [See all incidents] をクリックします。
  • [インシデント] ページで、ミュートするインシデントを見つけて、[More option]()をクリックし、つづいて [Silence associated condition] を選択します。

インシデントのクローズ

Monitoring によりインシデントをクローズすることも、場合によっては自分でインシデントをクローズすることもできます。

  • Monitoring では、次のいずれかが発生すると、インシデントが自動的に終了します。

    • モニタリングにより、条件が満たされなくなったことが示されている。
    • アラート ポリシーの自動クローズ時間内にモニタリング トラフィックが届かなかった場合。自動クローズ時間はデフォルトで 7 日間になります。自動クローズ時間は、指標しきい値条件を含むアラート ポリシーで構成できます。このフィールドは、Cloud Console または Cloud Monitoring API を使用して構成できます。

    たとえば、連続する 10 秒間に HTTP レスポンスのレイテンシが 2 秒を超えたため、アラート ポリシーによってインシデントが生成されました。HTTP レスポンスのレイテンシの次の測定値が 2 秒以下の場合、インシデントはクローズされます。同様に、7 日間データがまったく受信されなかった場合、インシデントはクローズされます。

  • モニタリングの停止に達した場合は、インシデントをクローズできます。

    インシデントをクローズした後で、条件が満たされたことを示すデータが到着した場合、インシデントが作成されます。

    インシデントをクローズしても、同じアラート ポリシーに対して対応待ちの他のインシデントはクローズされません。この動作は、同じ条件の対応待ちのインシデントをすべてクローズする、インシデントのミュートとは異なります。

インシデントをクローズする手順は次のとおりです。

  1. [アラート] ダッシュボードの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。

    • [More options] をクリックし、[Close this incident] を選択します。
    • インシデントの詳細ページを開いて、[Close incident] をクリックします。

Unable to close incident with active conditions」というメッセージが表示された場合、最新のアラート期間内にデータが受信されているため、インシデントを閉じることはできません。

Unable to close incident. Please try again in a few minutes.」というメッセージが表示された場合、内部エラーのためインシデントを閉じることができません。

次のステップ