このドキュメントでは、指標ベースのアラート ポリシーのインシデントを表示、調査、管理する方法について説明します。
始める前に
必要な権限があることを確認します。
-
Google Cloud コンソールを使用してインシデントを表示するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
-
Cloud コンソールのインシデントのモニタリング閲覧者(
roles/monitoring.cloudConsoleIncidentViewer
) - Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
ロールの付与の詳細については、アクセスの管理をご覧ください。
-
Cloud コンソールのインシデントのモニタリング閲覧者(
-
Google Cloud コンソールを使用してインシデントを管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
-
Cloud コンソールのインシデントのモニタリング編集者(
roles/monitoring.cloudConsoleIncidentEditor
) - Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
ロールの付与の詳細については、アクセスの管理をご覧ください。
-
Cloud コンソールのインシデントのモニタリング編集者(
Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。
インシデントを見つける
インシデントを一覧表示するには、次のようにします。
-
Google Cloud コンソールで notifications [アラート] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
- [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
- [Incidents] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[Show closed incidents] をクリックします。
省略可: 特定のインシデントの詳細を表示するには、リストのインシデントを選択します。[インシデントの詳細] ページが開きます。このページの詳細については、このページのインシデントを調査するをご覧ください。
古いインシデントを見つける
[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。
[Incidents] テーブルで、arrow_back_ios [Newer] または arrow_forward_ios [Older] をクリックすることでページを切替えてエントリを確認する。
[See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。
- クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[Show closed incidents] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で more_vert [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。
インシデントをフィルタする
フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。
Incidents テーブルのフィルタを追加するには、次のようにします。
[インシデント] ページで filter_list [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラート ポリシーの名前
- インシデントのオープン、クローズ日
- 指標タイプ
- リソースの種類
サブメニューの値を選択するか、フィルタバーに値を入力します。
たとえば、[指標タイプ] を選択して「
usage_time
」と入力すると、サブメニューには次のオプションのみが表示されます。agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
インシデントを調査する
調査するインシデントが見つかったら、そのインシデントの[インシデントの詳細]ページに移動します。詳細を表示するには、[アラート] ページまたは [インシデント] ページのインシデントの表でインシデントの概要を選択します。
または、インシデントへのリンクを含む通知を受け取った場合は、そのリンクを使用してインシデントの詳細を表示できます。
[インシデントの詳細] ページには、次の情報が表示されます。
次のようなステータス情報:
- 名前: このインシデントを引き起こしたアラート ポリシーの名前。
- ステータス: インシデントのステータス(対応待ち、確認済み、終了)。
- 重大度: インシデントの重大度。以下があります。
- 重大度なし
- 重大
- エラー
- 警告
- 期間: インシデントが開かれていた期間。
インシデントを引き起こしたアラート ポリシーに関する情報。
[条件] ペイン: インシデントの原因となったアラート ポリシーの条件を識別します。
[メッセージ] ペイン: アラート ポリシーの条件構成に基づいた原因の簡単な説明が表示されます。このペインには常に値が入力されます。
[Documentation] ペイン: アラート ポリシーの作成時に指定した通知のドキュメント テンプレートを表示します。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。
アラート ポリシーを作成するときにこのフィールドを省略した場合、このペインには「No documentation is configured」と表示されます。
- ラベル: 次の内容を報告します。
インシデントの原因となった時系列の、モニタリング対象リソースと指標のラベルと値。 この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。
Monitoring では、指標ラベルのドキュメントで変数を使用すると、ラベル値が数字、文字、スラッシュ(
/
)または等号(=
)で始まっていない場合、通知からラベルが省略されます。- アラート ポリシーで定義した任意のユーザー指定のラベルと値。これらのラベルを使用して、アラート ポリシーを整理、識別できます。ポリシーに関連付けられたラベルはポリシーラベルセクションに表示され、条件の一部として定義されたラベルは指標ラベルセクションに表示されます。 メタデータ ラベルは、ラベルに依存するフィルタまたはグループ化がある場合にのみ表示されます。 詳細については、アラートにラベルでアノテーションを付けるをご覧ください。
[インシデント詳細] ページには、インシデント調査用のツールもあります。
-
インシデントのタイムライン: インシデントを 2 種類の視覚表現で表示します。
- タイムライン上の赤いバーはインシデントの時間を表し、バーの長さと位置にはインシデントの期間が反映されます。
- グラフには、インシデントを引き起こしたアラート ポリシーで使用される時系列データとしきい値が表示されます。インシデントは、時系列の一部がアラート ポリシーの条件を満たしたときに開始されています。
時間軸は、インシデントの継続時間を示し、ラベル付きの丸が 2 つ付加されます。この 2 つの丸の時間軸上の位置によって、インシデントのタイムラインに沿ったグラフに表示されるデータの範囲が決まります。デフォルトでは、インシデントの開始時とインシデント終了時にそれぞれ丸が付けられます。また、インシデントがオープン状態の場合は、現在時刻に丸が付けられます。
インシデント タイムラインとグラフの時間範囲は、次のように変更できます。
-
グラフに表示される期間を変更するには、時間軸に沿ってどちらかの丸をドラッグします。この手法を使用することで、インシデントの開始や終了の前後など、特定の時間に集中できます。
軸上の丸をドラッグしてグラフを変更すると、[Time Span] メニューにはカスタム値が設定され、メニューが無効になります。[Time Span] メニューを有効にするには、[RESET] をクリックします。
- タイムラインに表示される期間を変更するには、[Time Span] メニューで期間を選択します。
- 他のトラブルシューティング ツールへのリンク。利用可能なリンクは、プロジェクトとアラート ポリシーの構成、インシデントの期間によって決まります。
- アラート ポリシーの詳細を確認するには、[ポリシーを表示] をクリックします。
- アラート ポリシーの定義を編集するには、[ポリシーを編集] をクリックします。
- リソースのパフォーマンス情報のダッシュボードに移動するには、[リソースの詳細を表示] をクリックします。
- ログ エクスプローラで関連するログエントリを表示するには、[ログを表示] をクリックします。詳細については、ログ エクスプローラを使用してログを表示するをご覧ください。
- グラフ内のデータを調べるには、[Metrics Explorer で表示する] をクリックします。
- アノテーション: インシデント調査による、知見、結果、提案、その他のコメントのログを提供します。
- アノテーションを追加するには、フィールドにテキストを入力して、[コメントを追加] をクリックします。
- コメントを破棄するには、[キャンセル] をクリックします。
インシデントを管理する
インシデントは次のいずれかの状態になります。
error オープン: アラート ポリシーの一連の条件が満たされる途中にあるか、条件が満たされなくなったことを示すデータが存在しません。アラート ポリシーに複数の条件が含まれている場合は、条件の組み合わせに応じてインシデントが開かれます。詳細については、複数の条件を持つポリシーをご覧ください。
warning 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
check_circle 終了済み: システムにより条件を満たすことが終了し、インシデントをクローズしたと判断されたか、満たされるべき条件の継続が見られないまま 7 日間が経過しました。
たとえば、エラー数が 0 を超えたときに通知するアラート ポリシーを作成する場合、エラーがないときはエラー数が 0 になるようにします。エラーがない状態でアラート ポリシーが null または空を返す場合は、エラーがいつ終了したかを示すシグナルは存在しません。状況によっては、Monitoring Query Language(MQL)で、測定値が使用できないときに使用されるデフォルト値を指定できます。例については、比率を使用するをご覧ください。
インシデントの確認
インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。
インシデントに確認済みのマークを付けるには、次の手順を行います。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- [More options](more_vert)をクリックし、つづいて [Acknowledge] を選択します。
- インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。
アラート ポリシーが繰り返し通知を送信するように構成されている場合、インシデントを確認しても通知は停止しません。停止するには、次のいずれかを行います。
- アラート ポリシーのスヌーズを作成する。
- アラート ポリシーを無効にする。
アラート ポリシーをスヌーズする
特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、Monitoring によってアラート ポリシーに関連するすべてのインシデントがクローズされます。
表示しているインシデントのスヌーズを作成するには、次のようにします。
[インシデントの詳細] ページで、[スヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を選択すると、スヌーズはすぐに開始されます。
インシデントの詳細ページを表示したときに、[スヌーズ] をクリックして期間を選択することで、関連するアラート ポリシーのスヌーズを作成できます。スヌーズはすぐに開始されます。[インシデント] ページから、スヌーズするインシデントを見つけて more_vert [その他のオプション] をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービスの停止時にアラート ポリシーをスヌーズすると、トラブルシューティング プロセス中の通知の追加を回避できます。
インシデントをクローズする
Monitoring によりインシデントをクローズするか、モニタリングの到着が停止した後にインシデントをクローズすることができます。インシデントをクローズした後で、条件が満たされたことを示すデータが到着した場合、新しいインシデントが作成されます。インシデントをクローズしても、同じ条件で対応待ちになっている他のインシデントはクローズされません。アラート ポリシーをスヌーズすると、スヌーズの開始時に対応待ちのインシデントがクローズされます。
次のいずれかが発生すると、Monitoring によってインシデントが自動的にクローズされます。
指標しきい値条件:
- しきい値に違反していないことを示すモニタリング 結果が届きます。
モニタリングは到着せず、条件は、モニタリングの到着が停止したときにインシデントをクローズするように構成され、基盤となるリソースの状態が不明か、無効になっていない。
アラート ポリシーの自動クローズ期間にモニタリング情報が受信されず、モニタリングの停止時にインシデントが自動的にクローズされるように条件が構成されていません。自動クローズ期間を構成するには、Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。
指標の不在条件:
- モニタリングが行われます。
- アラート ポリシーの自動クローズ期間の終了後 24 時間はモニタリング結果がありません。自動クローズ期間を構成するには、Google Cloud コンソールまたは Cloud Monitoring API を使用します。デフォルトの自動クローズ期間は 7 日間です。
予測条件:
- 予測が生成され、時系列が予測ウィンドウ内のしきい値に違反しないことが予測されます。
モニタリングが 10 分間到着しない。条件は、モニタリングが受信を停止したときにインシデントをクローズするように構成されており、基盤となるリソースの状態が不明か、無効になっていない。
アラート ポリシーの自動クローズ期間にモニタリング情報が受信されず、モニタリングの停止時にインシデントが自動的にクローズされるように条件が構成されていません。
たとえば、連続する 10 分間に対して HTTP レスポンスのレイテンシが 2 秒を超えたため、アラート ポリシーによってインシデントが生成されました。HTTP レスポンス レイテンシの次の測定値が 2 秒未満の場合、インシデントはクローズされます。同様に、7 日間データがまったく受信されなかった場合、インシデントはクローズされます。
インシデントをクローズする手順は次のとおりです。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- more_vert [すべて表示] をクリックしてから、[Close incident] を選択します。
- インシデントの詳細ページを開いて、[Close incident] をクリックします。
「Unable to close incident with active conditions
」というメッセージが表示された場合、最新のアラート期間内にデータが受信されているため、インシデントをクローズできません。
「Unable to close incident. Please try again in a few minutes.
」というメッセージが表示された場合、内部エラーのためインシデントをクローズできません。
データの保持と上限
インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。
次のステップ
- Cloud Monitoring API やコマンドラインを使用してアラート ポリシーを作成、管理するには、API によるアラート ポリシーを管理するをご覧ください。