指標ベースのアラート ポリシーのインシデント

インシデントは、アラート ポリシーの条件が満たされた時点の記録です。通常、条件が満たされている場合に、Cloud Monitoring はインシデントを開き、通知を送信します。ただし、ポリシーが一時停止または無効になっている場合、そのポリシーに対応待ちのインシデントが多すぎる場合、または基盤となるリソースが無効になっていることが判明している場合は、インシデントが作成されません。また、アラート ポリシーに複数の条件が含まれている場合、アラート ポリシーで、1 つの条件が満たされただけでインシデントの作成に十分かどうかを指定します。インシデントは、アラート ポリシーの条件が満たされた時点の記録です。通常、条件が満たされている場合に、アラート ポリシーの条件に一致するログを受信すると、Cloud Monitoring はインシデントを開き通知を送信します。ただし、次のような状況ではインシデントは作成されません。

  • ポリシーがスヌーズされているか、無効になっている。
  • 通知の最大レートがログベースのアラート ポリシーごとに 5 分あたり 1 件の通知上限を超えている。
  • 1 日あたりの通知の合計数が、ログベースのアラート ポリシーごとに 1 日あたり 20 件の通知上限を超えている。

Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理し、障害のトラブルシューティングに役立つインシデント情報をレポートできます。たとえば、[インシデントの詳細] ページには、インシデントのタイムラインと、モニタリングされている指標データのグラフが表示されます。関連するインシデントやログエントリへのリンクも表示されます。

このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、Cloud Monitoring によって保存された時系列データを評価する指標ベースのアラート ポリシーのインシデントを管理する方法についても説明します。

始める前に

必要な権限があることを確認します。

Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。

インシデントを見つける

Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。

  1. Google Cloud コンソールで、 [アラート] ページに移動します。

    [アラート] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。

    • [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
    • [Incidents] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[Show closed incidents] をクリックします。
  2. 特定のインシデントの詳細を表示するには、リストのインシデントを選択します。

    [インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。

古いインシデントを見つける

[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

  • [Incidents] テーブルで、 [Newer] または [Older] をクリックすることでページを切替えてエントリを確認する。

  • [See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。

    • クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[Show closed incidents] をクリックします。
    • インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
    • インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。

インシデントをフィルタする

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

Incidents テーブルのフィルタを追加するには、次のようにします。

  1. [インシデント] ページで [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。

    • インシデントの状態
    • アラート ポリシーの名前
    • インシデントのオープン、クローズ日
    • 指標タイプ
    • リソースの種類
  2. サブメニューの値を選択するか、フィルタバーに値を入力します。

    たとえば、[指標タイプ] を選択して「usage_time」と入力すると、サブメニューには次のオプションのみが表示されます。

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

インシデントを調査する

[インシデントの詳細] ページには、インシデントの原因を特定するのに役立つ情報が表示されます。

指標データを調べる

インシデントの発生前後の指標の状態を分析するには、[Alert Metrics] グラフを使用します。このグラフには、アラート ポリシーの条件が満たされた原因となったタイムラインと時系列が表示されます。

タイムラインの範囲を調整して、インシデントに関する指標データの傾向とパターンを探すことができます。

  • 条件が満たされた時系列のみを表示するか、条件が評価されるすべての時系列を表示するかを切り替えるには、 [すべての時系列を表示] をクリックします。

  • グラフに表示される期間を変更するには、ツールバーの期間セレクタを使用するか、ポインタでグラフ上の期間をハイライト表示します。

Metrics Explorer で指標データを表示して、より詳細に分析することもできます。これを行うには、[Alert Metrics] グラフに移動し、 [データを探索] をクリックします。デフォルトでは、Metrics Explorer は指標データを集計してフィルタし、指標グラフが [Alert Metrics] タイムラインに表示される時系列と一致するようにします。

ログエントリを調べる

[インシデントの詳細] ページの [ログ] ペインには、指標のモニタリング対象リソースのリソースタイプとラベルに一致するログエントリが表示されます。これらのログエントリを分析して、インシデントのトラブルシューティングに役立つ追加情報を確認できます。

  • ログ エクスプローラでログエントリを表示するには、[ログ エクスプローラで表示] をクリックし、スコーピング プロジェクトを選択します。 ログ エクスプローラには、関連するログエントリが作成されたときのタイムラインなど、ログエントリ データを分析するための追加ツールが用意されています。
  • Metrics Explorer でログエントリのフィルタに使用されるクエリを表示して編集するには、 [データを探索] をクリックします。

補足情報を表示する

[ラベル] セクションには、インシデントの原因となった時系列のモニタリング対象リソースと指標のラベルと値、およびアラート ポリシーで定義されたユーザーラベルが表示されます。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。詳細については、アラートにラベルでアノテーションを付けるをご覧ください。

[ドキュメント] セクションには、アラート ポリシーの作成時に指定した通知のドキュメント テンプレートが表示されます。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。

アラート ポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。

アプリケーション全体の根本的な問題を特定するには、他のアラート ポリシーの条件に関連するインシデントを調べます。

[Related Incidents] セクションには、次のいずれかに一致するインシデントのリストが表示されます。

  • インシデントは、同じアラート ポリシーの条件が満たされたときに作成されました。
  • このインシデントは、[インシデントの詳細] ページに表示されるインシデントとラベルを共有します。

インシデントを管理する

インシデントは次のいずれかの状態になります。

  • オープン: アラート ポリシーの一連の条件が満たされる途中にあるか、条件が満たされなくなったことを示すデータが存在しません。アラート ポリシーに複数の条件が含まれている場合は、条件の組み合わせに応じてインシデントが開かれます。詳細については、複数の条件を持つポリシーをご覧ください。

  • 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。

  • 終了済み: システムにより条件を満たすことが終了し、インシデントをクローズしたと判断されたか、満たされるべき条件の継続が見られないまま 7 日間が経過しました。

アラート ポリシーを構成する場合は、安定状態によってすべてが正常な状態であることを示すシグナルが生成されるようにします。これは、エラーのない状態を識別し、インシデントが開いている場合にそのインシデントをクローズできるようにするために必要となります。エラー状態が停止されたことを示すシグナルがない場合、インシデントが開かれた後、アラート ポリシーが発行されてから 7 日間は開かれたままとなります。

たとえば、エラー数が 0 を超えたときに通知するアラート ポリシーを作成する場合、エラーがないときはエラー数が 0 になるようにします。エラーがない状態でアラート ポリシーが null または空を返す場合は、エラーがいつ終了したかを示すシグナルは存在しません。状況によっては、Monitoring Query Language(MQL)で、測定値が使用できないときに使用されるデフォルト値を指定できます。例については、比率を使用するをご覧ください。

インシデントを確認する

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の手順を行います。

  1. [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。

    • [More options]()をクリックし、つづいて [Acknowledge] を選択します。
    • インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。

アラート ポリシーが繰り返し通知を送信するように構成されている場合、インシデントを確認しても通知は停止しません。通知を停止するには、次のいずれかを行います。

  • アラート ポリシーのスヌーズを作成する。
  • アラート ポリシーを無効にする。

アラート ポリシーをスヌーズする

特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、アラート ポリシーに関連するすべてのインシデントもクローズされます。

表示しているインシデンスのスヌーズを作成するには、次の操作を行います。

  1. [インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。

  2. スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。

[インシデント] ページから、スヌーズするインシデントを見つけて [その他のオプション] をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービス停止中はアラート ポリシーをスヌーズして、トラブルシューティング プロセス中に通知が届かないようにすることができます。

インシデントをクローズする

Monitoring によりインシデントをクローズするか、モニタリングの到着が停止した後にインシデントをクローズすることができます。インシデントをクローズした後で、条件が満たされたことを示すデータが到着した場合、新しいインシデントが作成されます。インシデントをクローズしても、同じ条件で対応待ちになっている他のインシデントはクローズされません。アラート ポリシーをスヌーズすると、スヌーズの開始時に対応待ちのインシデントがクローズされます。

次のいずれかが発生すると、Monitoring によってインシデントが自動的にクローズされます。

  • 指標しきい値条件:

    • しきい値が違反していないことを示すモニタリングが届きます。
    • モニタリングは到着せず、条件は、モニタリングの到着が停止したときにインシデントをクローズするように構成され、基盤となるリソースの状態が不明か、無効になっていない。

    • アラート ポリシーの自動クローズ期間にモニタリング値が到着せず、モニタリング値の受信が停止したときにインシデントを自動的にクローズするように条件が構成されていません。自動クローズ期間を構成するには、Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。

  • 指標の不在条件:

    • モニタリングが発生します。
    • アラート ポリシーの自動クローズ期間の終了後 24 時間、モニタリング値が到着しなかった場合。自動クローズ期間を構成するには、Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。
  • 予測される状況:

    • 予測が生成され、時系列が予測ウィンドウ内でしきい値に違反することはないと予測されます。
    • モニタリングが 10 分間到着しない。条件は、モニタリングが受信を停止したときにインシデントをクローズするように構成されており、基盤となるリソースの状態が不明か、無効になっていない。

    • アラート ポリシーの自動クローズ期間にモニタリング値が到着せず、モニタリング値の受信が停止したときにインシデントを自動的にクローズするように条件が構成されていません。

たとえば、連続する 10 分間に対して HTTP レスポンスのレイテンシが 2 秒を超えたため、アラート ポリシーによってインシデントが生成されました。HTTP レスポンス レイテンシの次の測定値が 2 秒未満の場合、インシデントはクローズされます。同様に、7 日間データがまったく受信されなかった場合、インシデントはクローズされます。

インシデントをクローズする手順は次のとおりです。

  1. [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
  2. [インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。

    • [もっと見る] をクリックし、[インシデントを閉じる] を選択します。
    • そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。
Unable to close incident with active conditions」というメッセージが表示された場合、最新のアラート期間内にデータが受信されているため、インシデントをクローズできません。

Unable to close incident. Please try again in a few minutes.」というメッセージが表示された場合、内部エラーのためインシデントをクローズできません。

データの保持と上限

インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。

次のステップ