- ポリシーがスヌーズされているか、無効になっている。
- 通知の最大レートがログベースのアラート ポリシーごとに 5 分あたり 1 件の通知上限を超えている。
- 1 日あたりの通知の合計数が、ログベースのアラート ポリシーごとに 1 日あたり 20 件の通知上限を超えている。
- 別のログエントリにより、オープン状態のインシデントで同じ条件が満たされます。この場合、Monitoring は同じインシデントに関する別の通知のみを送信します。
Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理し、障害のトラブルシューティングに役立つインシデント情報をレポートできます。たとえば、[インシデントの詳細] ページには、ログベースのアラート ポリシーのクエリに一致するログエントリのリストが表示されます。関連するインシデントへのリンクも確認できます。
このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、Cloud Logging の個々のログに保存されているログエントリ データを評価するログベースのアラート ポリシーのインシデントを管理する方法についても説明します。
始める前に
必要な権限があることを確認します。
Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。
-
Google Cloud コンソールを使用してインシデントを表示します。
-
Cloud コンソールのインシデントのモニタリング閲覧者(
roles/monitoring.cloudConsoleIncidentViewer
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング閲覧者(
-
Google Cloud コンソールを使用してインシデントを管理します。
-
Cloud コンソールのインシデントのモニタリング編集者(
roles/monitoring.cloudConsoleIncidentEditor
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング編集者(
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。
インシデントを見つける
Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。
-
Google Cloud コンソールで、notifications [アラート] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
- [Summary] ペインには、対応待ちのインシデントの数が一覧表示されます。
- [Incidents] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[Show closed incidents] をクリックします。
特定のインシデントの詳細を表示するには、リストのインシデントを選択します。
[インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。
古いインシデントを見つける
[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。
[Incidents] テーブルで、arrow_back_ios [Newer] または arrow_forward_ios [Older] をクリックすることでページを切替えてエントリを確認する。
[See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。
- クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[Show closed incidents] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で more_vert [その他のオプション] をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。
インシデントをフィルタする
フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。
Incidents テーブルのフィルタを追加するには、次のようにします。
[インシデント] ページで filter_list [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラート ポリシーの名前
- インシデントの開始日、終了日
サブメニューの値を選択するか、フィルタバーに値を入力します。
インシデントを調査する
[インシデントの詳細] ページには、インシデントの原因を特定するのに役立つ情報が表示されます。
ログエントリを調べる
ログエントリを調べて、調査に関連するパターンや繰り返し発生する問題を探します。[ログ] ペインには、ログベースのアラート ポリシーのクエリに一致するログエントリが表示されます。
- ログ エクスプローラでログエントリを表示するには、[ログ エクスプローラで表示] をクリックし、スコーピング プロジェクトを選択します。
- Metrics Explorer で [ログ] パネルを表示するには、query_stats [データを探索] をクリックします。
補足情報を表示する
[ラベル] セクションには、インシデントの原因となったログエントリに含まれるモニタリング対象リソースのラベルと値が表示されます。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。詳細については、アラートにラベルでアノテーションを付けるをご覧ください。
[ドキュメント] セクションには、アラート ポリシーの作成時に指定した通知のドキュメント テンプレートが表示されます。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。
アラート ポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。
関連するインシデントを調べる
アプリケーション全体の根本的な問題を特定するには、他のアラート ポリシーの条件に関連するインシデントを調べます。
[Related Incidents] セクションには、次のいずれかに一致するインシデントのリストが表示されます。- インシデントは、同じアラート ポリシーの条件が満たされたときに作成されました。
- このインシデントは、[インシデントの詳細] ページに表示されるインシデントとラベルを共有します。
インシデントを管理する
インシデントは次のいずれかの状態になります。
error 対応待ち: ログベースのアラート ポリシーの条件が満たされましたが、インシデントは対応待ちです。同じ条件が再度満たされても、インシデントがすでに開いている場合、新しいインシデントは開きません。
warning 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
check_circle 完了済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。
インシデントを確認する
インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。
インシデントに確認済みのマークを付けるには、次の手順を行います。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- [More options](more_vert)をクリックし、つづいて [Acknowledge] を選択します。
- インシデントの詳細ページを開いて、[ACKNOWLEDGE INCIDENT] をクリックします。
アラート ポリシーをスヌーズする
特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、アラート ポリシーに関連するインシデントは対応待ちのままになりますが、それ以上の通知は発生しません。インシデントは、アラート ポリシーの自動クローズ期間に基づいてクローズされます。
表示しているインシデンスのスヌーズを作成するには、次の操作を行います。
[インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。
[インシデント] ページから、スヌーズするインシデントを見つけて more_vert [その他のオプション] をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービス停止中はアラート ポリシーをスヌーズして、トラブルシューティング プロセス中に通知が届かないようにすることができます。
インシデントをクローズする
Monitoring によりインシデントをクローズする、またはユーザーがインシデントをクローズすることができます。
アラート ポリシーの自動終了期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。
インシデントをクローズする手順は次のとおりです。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- more_vert [もっと見る] をクリックし、[インシデントを閉じる] を選択します。
- そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。
Unable to close incident
」が表示された場合は、数分後にもう一度お試しください。インシデントの原因となった条件はアラート システムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。データの保持と上限
インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。
次のステップ
- Cloud Monitoring API やコマンドラインを使用してアラート ポリシーを作成、管理するには、API によるアラート ポリシーを管理するをご覧ください。