指標ベースのアラートポリシーのインシデント

インシデントは、アラートポリシーの条件を満たしたタイミングの記録です。アラートポリシーに複数の条件が含まれている場合、1 つの条件を満たすだけでインシデントが作成されるかどうかをアラートポリシーで指定します。通常、条件が満たされている場合に、Cloud Monitoring はインシデントを開き、通知を送信します。ただし、次のような状況ではインシデントは作成されません。

ポリシーがスヌーズされているか、無効になっている。
アラートポリシーまたはインシデントの数が、既存のアラートの上限を超えている。

Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理し、障害のトラブルシューティングに役立つインシデント情報をレポートできます。たとえば、[インシデントの詳細] ページには、インシデントのタイムラインと、モニタリング対象の指標データを示すグラフが表示されます。関連するインシデントとログエントリへのリンクも確認できます。

このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、Cloud Monitoring によって保存された時系列データを評価する指標ベースのアラートポリシーのインシデントを管理する方法についても説明します。

この機能は Google Cloud プロジェクトでのみサポートされています。App Hub 構成の場合は、App Hub ホストプロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。

始める前に

Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。

Google Cloud コンソールを使用してインシデントを表示する:
- Cloud コンソールのインシデントのモニタリング閲覧者（roles/monitoring.cloudConsoleIncidentViewer）
- Stackdriver アカウント閲覧者（roles/stackdriver.accounts.viewer）
Google Cloud コンソールを使用してインシデントを管理する:
- Cloud コンソールのインシデントのモニタリング編集者（roles/monitoring.cloudConsoleIncidentEditor）
- Stackdriver アカウント閲覧者（roles/stackdriver.accounts.viewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。

インシデントを見つける

Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。

Google Cloud コンソールで、[ アラート] ページに移動します。
[アラート] に移動

このページを検索バーで検索する場合は、小見出しが「Monitoring」の結果を選択します。
Google Cloud コンソールのツールバーで、 Google Cloud プロジェクトを選択します。App Hub 構成の場合は、App Hub ホストプロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。

[アラート] ページには、アラートポリシー、スヌーズ、インシデントに関する情報が表示されます。
- [概要] ペインには、対応待ちのインシデントの数が一覧表示されます。
- [インシデント] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
特定のインシデントの詳細を表示するには、リストのインシデントを選択します。

[インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。

古いインシデントを見つける

[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

[インシデント] テーブルで、 [次] または [それ以前] をクリックすることでページを切替えてエントリを確認する。
[See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。
- クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラートポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で（その他のオプション）をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。

インシデントのフィルタ

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

Incidents テーブルのフィルタを追加するには、次のようにします。

[インシデント] ページで [フィルタ] をクリックし、つづいてフィルタプロパティを選択します。フィルタプロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラートポリシーの名前
- インシデントの開始日、終了日
- 指標タイプ
- リソースの種類
サブメニューの値を選択するか、フィルタバーに値を入力します。
たとえば、[指標タイプ] を選択して「usage_time」と入力すると、サブメニューには次のオプションのみが表示されます。
```
agent.googleapis.com/cpu/usage_time
compute.googleapis.com/guest/container/cpu/usage_time
container.googleapis.com/container/cpu/usage_time
```

インシデントを調査する

[インシデントの詳細] ページには、インシデントの原因を特定する際に役立つ情報が表示されます。

指標データを調べる

インシデントの発生前後の指標の状態を分析するには、[Alert Metrics] グラフを使用します。このグラフには、タイムラインと、アラートポリシーの条件を満たした時系列が表示されます。

タイムラインの範囲を調整して、インシデントに関連する指標データの傾向とパターンを確認できます。

条件が満たされた原因となった時系列のみを表示するか、条件が評価するすべての時系列を表示するかを切り替えるには、（すべての時系列を表示します）をクリックします。
グラフに表示される期間を変更するには、ツールバーの期間セレクタを使用するか、ポインタでグラフ上の期間をハイライト表示します。

Metrics Explorer で指標データを表示して、より詳細に分析することもできます。これを行うには、[Alert Metrics] グラフに移動し、[ データを分析] をクリックします。デフォルトでは、Metrics Explorer は指標データを集計してフィルタし、指標グラフが [Alert Metrics] タイムラインに表示される時系列と一致するようにします。

ログエントリを調べる

[インシデントの詳細] ページの [ログ] ペインには、指標のモニタリング対象リソースのリソースタイプとラベルに一致するログエントリが表示されます。これらのログエントリを分析して、インシデントのトラブルシューティングに役立つ追加情報を確認できます。

ログエクスプローラでログエントリを表示するには、[ログエクスプローラで表示] をクリックし、スコーピングプロジェクトを選択します。ログエクスプローラには、関連するログエントリが作成されたときのタイムラインなど、ログエントリデータを分析するための追加ツールが用意されています。
Metrics Explorer でログエントリのフィルタに使用されるクエリを表示して編集するには、[ データを分析] をクリックします。

アプリケーション情報を表示する

App Hub アプリケーションに関連付けられているアラートポリシーについては、[ アプリケーションに関連付けられています] セクションに移動します。このセクションの 1 つのエントリには、アプリケーション ID と、アプリケーションに関する情報を表示するダッシュボードへのリンクが表示されます。2 つ目のエントリには、ワークロードまたはサービスが一覧表示され、ダッシュボードにリンクされています。

補足情報を表示する

[ラベル] セクションには、インシデントの原因となった時系列のモニタリング対象リソースと指標のラベルと値、アラートポリシーで定義されたユーザーラベルが表示されます。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。詳細については、アラートにラベルでアノテーションを付けるをご覧ください。

[ドキュメント] セクションには、アラートポリシーの作成時に指定した通知のドキュメントテンプレートが表示されます。この情報には、アラートポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。

アラートポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。

アプリケーション全体の根本的な問題を特定するには、他のアラートポリシーの条件に関連するインシデントを調べます。

[Related Incidents] セクションには、次のいずれかに一致するインシデントのリストが表示されます。

インシデントは、同じアラートポリシーの条件が満たされたときに作成されました。
このインシデントは、[インシデントの詳細] ページに表示されるインシデントとラベルを共有します。

インシデントを管理する

インシデントは次のいずれかの状態になります。

オープン: アラートポリシーの一連の条件が満たされる途中にあるか、条件が満たされなくなったことを示すデータが存在しません。アラートポリシーに複数の条件が含まれている場合は、条件の組み合わせに応じてインシデントが開かれます。詳細については、複数の条件を持つポリシーをご覧ください。
確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
終了済み: システムにより条件を満たしている状態が終了し、インシデントをクローズしたと判断されたか、満たされるべき条件の継続が見られないまま 7 日間が経過しました。

アラートポリシーを構成する場合は、安定状態によってすべてが正常な状態であることを示すシグナルが生成されるようにします。これは、エラーのない状態を識別し、インシデントが開いている場合にそのインシデントをクローズできるようにするために必要となります。エラー状態が停止されたことを示すシグナルがない場合、インシデントが開かれた後、アラートポリシーが発行されてから 7 日間は開かれたままとなります。

たとえば、エラー数が 0 を超えたときに通知するアラートポリシーを作成する場合、エラーがないときはエラー数が 0 になるようにします。エラーがない状態でアラートポリシーが null または空を返す場合は、エラーがいつ終了したかを示すシグナルは存在しません。状況によっては、Monitoring Query Language（MQL）で、測定値が使用できないときに使用されるデフォルト値を指定できます。例については、比率を使用するをご覧ください。

インシデントを確認する

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の操作を行います。

[アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- （その他のオプション）をクリックし、[確認] を選択します。
- インシデントの詳細ページを開いて、[インシデントを確認する] をクリックします。

アラートポリシーが繰り返し通知を送信するように構成されている場合、インシデントを確認しても通知は停止しません。停止するには、次のいずれかを行います。

アラートポリシーのスヌーズを作成する。
アラートポリシーを無効にする。

アラートポリシーをスヌーズする

特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラートポリシーをスヌーズします。アラートポリシーをスヌーズすると、Monitoring によってアラートポリシーに関連するすべてのインシデントもクローズされます。

表示しているインシデンスのスヌーズを作成するには、次の操作を行います。

[インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。

[インシデント] ページから、スヌーズするインシデントを見つけて（その他のオプション）をクリックし、[スヌーズ] を選択して、アラートポリシーをスヌーズすることもできます。サービス停止中はアラートポリシーをスヌーズして、トラブルシューティングプロセス中に通知が届かないようにすることができます。

インシデントをクローズする

Monitoring によりインシデントをクローズするか、モニタリングデータの到着が停止した後にインシデントをクローズすることができます。インシデントをクローズした後で、条件が満たされたことを示すデータが到着した場合、新しいインシデントが作成されます。インシデントをクローズしても、同じ条件で対応待ちになっている他のインシデントはクローズされません。アラートポリシーをスヌーズすると、スヌーズの開始時に対応待ちのインシデントがクローズされます。

次のいずれかが発生すると、Monitoring によってインシデントが自動的にクローズされます。

指標しきい値条件:
- しきい値が違反していないことを示すモニタリングデータが届きます。
- モニタリングデータは到着せず、条件は、モニタリング結果の到着が停止したときにインシデントをクローズするように構成され、基盤となるリソースの状態が不明か、無効になっていません。
  
  注: リソースの状態が無効であることが判明している場合、データの受信が停止してもインシデントはクローズされません。ただし、インシデントは手動でクローズできます。リソースに metadata.system_labels.state ラベルが含まれ、アラートポリシーが Monitoring Query Language で記述されていない場合、Monitoring はリソースの状態を特定できます。詳細については、データの受信停止時にインシデントがクローズされないをご覧ください。
- アラートポリシーの自動クローズ期間にモニタリングデータが到着せず、モニタリングデータの受信が停止したときにインシデントを自動的にクローズするように条件が構成されていません。自動クローズ期間を構成するには、 Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。
指標の不在条件:
- モニタリングデータが発生します。
- アラートポリシーの自動クローズ期間の終了後 24 時間、モニタリングデータが到着しません。自動クローズ期間を構成するには、 Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。
予測条件:
- 予測が生成され、時系列が予測ウィンドウ内でしきい値に違反することはないと予測されます。
- モニタリングデータが 10 分間到着しません。条件は、モニタリングデータの受信を停止したときにインシデントをクローズするように構成されており、基盤となるリソースの状態が不明か、無効になっていません。
  
  注: リソースの状態が無効であることが判明している場合、データの受信が停止してもインシデントはクローズされません。ただし、インシデントは手動でクローズできます。リソースに metadata.system_labels.state ラベルが含まれ、アラートポリシーが Monitoring Query Language で記述されていない場合、Monitoring はリソースの状態を特定できます。詳細については、データの受信停止時にインシデントがクローズされないをご覧ください。
- アラートポリシーの自動クローズ期間にモニタリングデータが到着せず、モニタリングデータの受信が停止したときにインシデントを自動的にクローズするように条件が構成されていません。

たとえば、連続する 10 分間に対して HTTP レスポンスのレイテンシが 2 秒を超えたため、アラートポリシーによってインシデントが生成されました。HTTP レスポンスレイテンシの次の測定値が 2 秒未満の場合、インシデントはクローズされます。同様に、7 日間データがまったく受信されなかった場合、インシデントはクローズされます。

インシデントをクローズする手順は次のとおりです。

[アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- （もっと見る）をクリックし、[インシデントを閉じる] を選択します。
- そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。

「Unable to close incident with active conditions」というメッセージが表示された場合、最新のアラート期間内にデータが受信されているため、インシデントをクローズできません。

「Unable to close incident. Please try again in a few minutes.」というメッセージが表示された場合、内部エラーのためインシデントをクローズできません。

データの保持と上限

インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。

次のステップ

Cloud Monitoring API やコマンドラインを使用してアラートポリシーを作成、管理する。API によるアラートポリシーの管理をご覧ください。

アラートポリシーの概念的な扱いの詳細については、指標ベースのアラートポリシーの動作をご覧ください。