SQL ベースのアラート ポリシーのインシデントを管理する

インシデントは、アラート ポリシーの条件が満たタイミングの記録です。通常、条件が満たされている場合に、アラート ポリシーの条件に一致するログを受信すると、Cloud Monitoring はインシデントを開き通知を送信します。ただし、次のような状況ではインシデントは作成されません。

  • ポリシーがスヌーズされているか、無効になっている。
  • 通知の最大レートがログベースのアラート ポリシーごとに 5 分あたり 1 件の通知上限を超えている。
  • 1 日あたりの通知の合計数が、ログベースのアラート ポリシーごとに 1 日あたり 20 件の通知上限を超えている。

Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理し、障害のトラブルシューティングに役立つインシデント情報をレポートできます。たとえば、[インシデントの詳細] ページには、SQL クエリ結果の概要と関連するインシデントのリストが表示されます。

このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、ログエントリのグループのデータに対して実行された SQL クエリの結果を評価する SQL ベースのアラート ポリシーのインシデントを管理する方法についても説明します。

始める前に

必要な権限があることを確認します。

Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。

インシデントを見つける

Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。

  1. Google Cloud コンソールで、 [アラート] ページに移動します。

    [アラート] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。

    • [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
    • [Incidents] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[Show closed incidents] をクリックします。
  2. 特定のインシデントの詳細を表示するには、リストのインシデントを選択します。

    [インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。

古いインシデントを見つける

[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

  • [Incidents] テーブルで、 [Newer] または [Older] をクリックすることでページを切替えてエントリを確認する。

  • [See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。

    • クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[Show closed incidents] をクリックします。
    • インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
    • インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。

インシデントをフィルタする

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

Incidents テーブルのフィルタを追加するには、次のようにします。

  1. [インシデント] ページで [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。

    • インシデントの状態
    • アラート ポリシーの名前
    • インシデントの開始日、終了日
  2. サブメニューの値を選択するか、フィルタバーに値を入力します。

インシデントを調査する

[インシデントの詳細] ページには、インシデントの原因を特定するのに役立つ情報が表示されます。

クエリ結果を調べる

[1 日あたりのスロット使用時間の合計] ペインには、過去 24 時間に予約済みの BigQuery スロットでアラート ポリシーの SQL クエリの実行に費やされた時間が表示されます。

[SQL クエリ結果] ペインには、ログ分析がアラート ポリシーの条件から SQL クエリを実行するたびのクエリ結果の概要のリストが表示されます。デフォルトでは、アラート ポリシーの条件に一致するクエリのみが表示されるようにリストがフィルタされます。

  • ログ分析がクエリを実行した特定の時点のクエリとクエリ結果の表を表示するには、[クエリ実行時間] 列の値をクリックします。
  • アラート ポリシーの条件に一致するクエリ結果のみを表示するか、ログ分析がアラート ポリシーから実行したすべてのクエリを表示するかを切り替えるには、[アラート条件に一致するクエリのみを表示] をクリックします。

補足情報を表示する

[ドキュメント] セクションには、アラート ポリシーの作成時に指定した通知のドキュメント テンプレートが表示されます。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。

アラート ポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。

アプリケーション全体の根本的な問題を特定するには、他のアラート ポリシーの条件に関連するインシデントを調べます。

[関連インシデント] セクションには、アラート ポリシーの条件が満たされたときに作成された他のインシデントのリストが表示されます。

インシデントを管理する

インシデントは次のいずれかの状態になります。

  • 対応待ち: SQL ベースのアラート ポリシーの条件が満たされましたが、インシデントは対応待ちです。同じ条件が再度満たされても、インシデントがすでに開いている場合、新しいインシデントは開きません。

  • 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。

  • 完了済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。

インシデントを確認する

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の手順を行います。

  1. [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。

    • [More options]()をクリックし、つづいて [Acknowledge] を選択します。
    • インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。

アラート ポリシーをスヌーズする

特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、アラート ポリシーに関連するインシデントは対応待ちのままになりますが、それ以上の通知は発生しません。インシデントは、アラート ポリシーの自動クローズ期間に基づいてクローズされます。

表示しているインシデンスのスヌーズを作成するには、次の操作を行います。

  1. [インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。

  2. スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。

[インシデント] ページから、スヌーズするインシデントを見つけて [その他のオプション] をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービス停止中はアラート ポリシーをスヌーズして、トラブルシューティング プロセス中に通知が届かないようにすることができます。

インシデントをクローズする

Monitoring によりインシデントをクローズする、またはユーザーがインシデントをクローズすることができます。

アラート ポリシーの自動終了期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。

インシデントをクローズする手順は次のとおりです。

  1. [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。

    • [もっと見る] をクリックし、[インシデントを閉じる] を選択します。
    • そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。
メッセージ「Unable to close incident」が表示された場合は、数分後にもう一度お試しください。インシデントの原因となった条件はアラート システムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。

データの保持と上限

インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。

次のステップ