ログベースのアラートのインシデントを管理する

インシデントは、アラートとも呼ばれ、アラート ポリシーのトリガーのレコードです。通常、ログベースのアラート ポリシーに一致するログを受信すると、Cloud Monitoring はインシデントを開き通知を送信します。ただし、以下の状況ではインシデントは作成されません。

  • ポリシーがスヌーズされているか、無効になっている。
  • 通知の最大レートがログベースのアラートごとに 5 分あたり 1 件の通知上限を超えている。
  • 1 日あたりの通知の合計数が、ログベースのアラートごとに 1 日あたり 20 件の通知上限を超えている。

このドキュメントでは、ログベースのアラート ポリシーのインシデントを表示、調査、管理する方法について説明します。

始める前に

必要な権限があることを確認します。

Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。

インシデントを見つける

インシデントを一覧表示するには、次のようにします。

  1. Google Cloud コンソールのナビゲーション パネルで、[Monitoring] を選択してから、 [アラート] を選択します。

    [アラート] に移動

    • [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
    • [Incidents] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[Show closed incidents] をクリックします。
  2. 省略可: 特定のインシデントの詳細を表示するには、リストのインシデントを選択します。[インシデントの詳細] ページが開きます。このページの詳細については、このページのインシデントの調査セクションをご覧ください。

古いインシデントを見つける

[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

  • [Incidents] テーブルで、 [Newer] または [Older] をクリックすることでページを切替えてエントリを確認する。

  • [See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。

    • クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[Show closed incidents] をクリックします。
    • インシデントをフィルタする: フィルタの追加については、インシデントのフィルタリングをご覧ください。
    • インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントの管理をご覧ください。

インシデントをフィルタする

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

Incidents テーブルのフィルタを追加するには、次のようにします。

  1. [インシデント] ページで [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。

    • インシデントの状態
    • アラート ポリシーの名前
    • インシデントの開始日、終了日
  2. サブメニューの値を選択するか、フィルタバーに値を入力します。

インシデントを調査する

調査するインシデントが見つかったら、そのインシデントの[インシデントの詳細]ページに移動します。詳細を表示するには、[アラート] ページまたは [インシデント] ページのインシデントの表でインシデントの概要を選択します。

または、インシデントへのリンクを含む通知を受け取った場合は、そのリンクを使用してインシデントの詳細を表示できます。

[インシデントの詳細] ページには、次の情報が表示されます。

  • 次のようなステータス情報:

    • 名前: このインシデントを引き起こしたアラート ポリシーの名前。
    • ステータス: インシデントのステータス(対応待ち、確認済み、終了)。
    • 重大度: インシデントの重大度。以下があります。
      • 重大度なし
      • 重大
      • エラー
      • 警告
    • 期間: インシデントが開かれていた期間。
  • [ログ] ペイン。アラートクエリに一致するログエントリを表示します。ペインによって、調査の一環としてこれらのエントリをフィルタリングできます。

    ログエントリのリストを更新するには、 [更新] をクリックします。ログ エクスプローラでログを表示するには、 [ログ エクスプローラで表示] をクリックします。

  • インシデントを引き起こしたアラート ポリシーに関する情報。

    • [条件] ペイン: インシデントの原因となったアラート ポリシーの条件を識別します。ログ エクスプローラを使用してログベースのアラート ポリシーを作成した場合、条件名は常に「Log match condition」です。

      このペインでは、アラート ポリシーの通知を行う間隔と自動クローズまでの期間も報告されます。

    • [メッセージ] ペイン: アラート ポリシーの条件構成に基づいた原因の簡単な説明が表示されます。このペインには常に値が入力されます。

    • [Documentation] ペイン: アラート ポリシーの作成時に指定した通知のドキュメント テンプレートを表示します。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。

      アラート ポリシーを作成するときにこのフィールドを省略した場合、このペインには「No documentation is configured」と表示されます。

  • ラベル: 次の内容を報告します。
    • アラート ポリシーをトリガーしたログエントリに含まれるモニタリング対象リソースのラベルと値。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。これらのラベルは、メッセージ文字列でも報告されます。
    • アラート ポリシーで定義した任意のユーザー指定のラベルと値。これらのラベルを使用して、アラート ポリシーを整理、識別できます。ポリシーに関連付けられたラベルはポリシーラベルセクションに表示され、条件の一部として定義されたラベルは指標ラベルセクションに表示されます。 メタデータ ラベルは、ラベルに依存するフィルタまたはグループ化がある場合にのみ表示されます。 使用例については、アラート ポリシーに重大度レベルを追加するをご覧ください。

[インシデント詳細] ページには、インシデント調査用のツールもあります。

  • 他のトラブルシューティング ツールへのリンク。利用可能なリンクは、プロジェクトとアラート ポリシーの構成、インシデントの期間によって決まります。
    • アラート ポリシーの詳細を確認するには、[ポリシーを表示] をクリックします。
    • アラート ポリシーの定義を編集するには、[ポリシーを編集] をクリックします。
    • ログ エクスプローラで関連するログエントリを表示するには、[ログを表示] をクリックします。詳細については、ログ エクスプローラの使用をご覧ください。
  • アノテーション: インシデント調査による、知見、結果、提案、その他のコメントのログを提供します。
    • アノテーションを追加するには、フィールドにテキストを入力して、[コメントを追加] をクリックします。
    • コメントを破棄するには、[キャンセル] をクリックします。

インシデントを管理する

インシデントは次のいずれかの状態になります。

  • 対応待ち: ログベースのアラート ポリシーがトリガーされましたが、インシデントは対応待ちです。同じアラートが再度トリガーされ、インシデントがすでに開始されている場合、新しいインシデントは開始されません。

  • 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。

  • 完了済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。

インシデントの確認

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の手順を行います。

  • [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  • [インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。

    • [More options]()をクリックし、つづいて [Acknowledge] を選択します。
    • インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。

アラート ポリシーをスヌーズする

特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、アラート ポリシーに関連するインシデントは対応待ちのままになりますが、それ以上の通知は発生しません。インシデントは、アラート ポリシーの自動クローズ期間に基づいてクローズされます。

表示しているインシデントのスヌーズを作成するには、次のようにします。

  1. [インシデントの詳細] ページで、[スヌーズ] をクリックします。

  2. スヌーズ期間を選択します。スヌーズ期間を選択すると、スヌーズはすぐに開始されます。

インシデントの詳細ページを表示したときに、[スヌーズ] をクリックして期間を選択することで、関連するアラート ポリシーのスヌーズを作成できます。スヌーズはすぐに開始されます。[インシデント] ページから、スヌーズするインシデントを見つけて [その他のオプション] をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービスの停止時にアラート ポリシーをスヌーズすると、トラブルシューティング プロセス中の通知の追加を回避できます。

インシデントをクローズする

Monitoring によりインシデントをクローズする、またはユーザーがインシデントをクローズすることができます。

アラート ポリシーの自動終了期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。

インシデントをクローズする手順は次のとおりです。

  1. [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。

    • [すべて表示] をクリックしてから、[Close incident] を選択します。
    • インシデントの詳細ページを開いて、[Close incident] をクリックします。
メッセージ「Unable to close incident」が表示された場合は、数分後にもう一度お試しください。トリガーしたログエントリは、アラート システムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。

データの保持と上限

インシデントの制限と保持期間の詳細については、アラートと稼働時間チェックに関する制限をご覧ください。

次のステップ