指標ベースのアラートポリシーの動作

このドキュメントでは、アライメント期間と期間の設定によって条件が合うタイミングを決定する方法、アラートポリシーによって複数の条件を組み合わせる方法、アラートポリシーによって欠落しているデータポイントを置き換える方法について説明します。また、ポリシーに対する対応待ちインシデントの最大数、インシデントごとの通知数、通知の遅延の原因についても説明します。

このコンテンツは、ログベースのアラートポリシーには適用されません。ログベースのアラートポリシーの詳細については、ログのモニタリングをご覧ください。

アライメント期間と長さの設定

アライメント期間と期間枠は、アラートポリシーの条件を指定するときに設定する 2 つのフィールドです。このセクションでは、これらのフィールドの意味を簡潔に説明します。

アライメント期間

アライメント期間は、特定の時点からのルックバック間隔です。Aligner は、ルックバック間隔にポイントを結合して 1 つのアライメント値に変える関数です。たとえば、アライメント期間が 5 分である午後 1 時の場合、アライメント期間には午後 12 時 55 分から午後 1 時の間に受信したサンプルが含まれます。午後 1 時 1 分では、アライメント期間は 1 分スライドされ、午後 12 時 56 分から午後 1 時 1 分の間に受信したサンプルが含まれます。

Google Cloud コンソール

アライメントフィールドは、[新しい条件] ダイアログの一部である [ローリングウィンドウ] と [ローリングウィンドウ関数] メニューで構成します。

使用可能な関数についての詳細は、API リファレンスの Aligner をご覧ください。一部の整列指定子関数では、データの整列と別の種類の指標への変換の両方が行われます。詳細については、種類、タイプ、変換をご覧ください。

API

アライメントフィールドは、MetricThreshold および MetricAbsence 構造の aggregations.alignmentPeriod および aggregations.perSeriesAligner フィールドを設定して構成します。

アラートポリシーの指標しきい値条件に対するアライメント期間の影響を示すために、サンプリング期間 1 分の指標でモニタリングする条件について考えてみます。アライメント期間を 5 分、整列指定子を sum に設定するとします。また、アライメントされた時系列の値が少なくとも 3 分間で 2 より大きい場合に条件が満たされ、1 分ごとに条件が評価されると仮定します。次の図は、条件の連続した評価を示しています。

アライメント期間の影響を示す図。

図の各行は 1 回の条件の評価を示しています。時系列データが表示されます。アライメント期間内のポイントは青い点で示され、古い点はすべて黒で表示されます。各行にはアライメントされた値と、この値がしきい値の 2 より大きいかどうかが表示されます。start というラベルの付いた行の場合、アライメントされた値は 1 に計算され、しきい値より小さくなります。次の評価で、アライメント期間のサンプルの合計が 2 になります。3 番目の評価では、合計が 3 になります。この値はしきい値より大きいため、期間のタイマーが開始されます。

時間枠

単一の測定値または予測値によって条件が満たされないようにするには、期間（時間枠）を使用します。たとえば、条件の期間フィールドが 15 分に設定されているとします。条件のタイプに基づく条件の動作は次のとおりです。

指標しきい値条件は、1 つの時系列で 15 分間隔で調整されたすべての測定値がしきい値を超えた場合に条件を満たします。
指標の不在条件は、15 分間隔で時系列にデータが到着しない場合に満たされます。
予測条件は、15 分間のウィンドウ中に生成されたすべての予測が、時系列が予測ウィンドウ内でしきい値をまたぐと予測した場合に満たされます。

条件が 1 つのポリシーの場合、条件が満たされたときにインシデントがオープンになり、通知が送信されます。条件が満たされている間、これらのインシデントはオープンの状態のままになります。

Google Cloud コンソール

時間枠を構成するには、[トリガーを構成] ステップの [再テストの時間枠] フィールドを使用します。

API

期間時間枠を構成するには、MetricThreshold 構造と MetricAbsence 構造の duration フィールドを設定します。

上の図は、指標しきい値条件の 3 つの評価を示しました。start + 2 minutes の時点で、アライメントされた値はしきい値を超えています。ただし、期間時間枠が 3 分に設定されているため、条件は満たされません。次の図では、条件の次の評価の結果を示しています。

期間時間枠の影響を示す図。

アライメントされた値は start + 2 minutes の時点でしきい値より大きい場合でも、アライメントされた値は 3 分間しきい値を超えるまで条件は満たされません。このイベントは start + 5 minutes の時点で発生します。

測定値または予測で条件が満たされないと、条件の期間時間枠はそのたびにリセットされます。この動作は以下の例に示されています。

例: このアラートポリシーには、5 分間の時間枠を指定する 1 つの指標しきい値条件が含まれています。

HTTP レスポンスのレイテンシが 2 秒を超え、
レイテンシが 5 分間のしきい値を超える場合、
インシデントを開き、サポートチームにメールを送信します。

次の一連の流れは、期間時間枠が条件の評価にどのように影響するかを示しています。

HTTP レイテンシは 2 秒未満です。

次の連続する 3 分間で、HTTP レイテンシが 2 秒を超える。

次の測定で、レイテンシが 2 秒未満になるため、条件によって期間時間枠がリセットされる。

次の連続する 5 分間で HTTP レイテンシが 2 秒を超え、条件が満たされる。

アラートポリシーに条件が 1 つあるため、条件が満たされたときに Monitoring によって通知が送信されます。

期間時間枠を、誤検出を最小限に抑えるのに十分な長さを確保しながら、インシデントがタイムリーに開かれるように十分に短く設定します。

アライメント期間と期間時間枠を設定する際のベストプラクティス

アライメント期間によって、整列指定子と組み合わせられるサンプルの数が決まります。

指標タイプのアライメント期間の最小値は、その指標タイプのサンプリング期間です。たとえば、指標タイプが 300 秒ごとにサンプリングされる場合、アライメント期間は 300 秒以上にする必要があります。ただし、5 つのサンプルを結合する場合は、アライメント期間を 5 * 300 秒または 1,500 秒に設定します。
アライメント期間の最大値は、指標タイプの取り込み遅延を 24 時間短縮します。たとえば、指標の取り込み遅延が 6 時間の場合、アライメント期間の最大値は 18 時間です。

時間枠を使用して、アラートの応答性を指定します。たとえば、指標の不在条件で期間時間枠を 20 分に設定した場合、条件が満たされる前の 20 分間はデータが存在しません。アラートポリシーの応答性を高めるには、期間を小さい値に設定します。指標しきい値条件の場合、アラートポリシーが最も応答性の高いようにするには、期間を 0 に設定します。単一のアライメントされた値は、これらの種類の条件が満たされます。

アラートポリシーの条件は、一定の頻度で評価されます。アラインメント期間と期間時間枠に対して行う選択は、条件が評価される頻度を決定しません。

複数の条件を持つポリシー

1 つのアラートポリシーには、最大 6 個の条件を含めることができます。

Cloud Monitoring API を使用している場合や、アラートポリシーに複数の条件がある場合は、インシデントが開始されるタイミングを指定する必要があります。複数条件の組み合わせ方を構成するには、次のいずれかを行います。

Google Cloud コンソール

コンバイナオプションは、[複数条件トリガー] ステップで構成します。

API

コンバイナオプションは、AlertPolicy 構造の [combiner] フィールドで構成します。

次の表では、Google Cloud コンソールの設定、Cloud Monitoring API での同等の値、各設定の説明を示します。

Google Cloud コンソールポリシーによって値がトリガーされます	Cloud Monitoring API combiner の値	意味
いずれかの条件が満たされている	`OR`	いずれかのリソースがいずれかの条件を満たすと、インシデントが開かれます。
条件ごとに異なるリソースであってもすべての条件が満たされている（デフォルト）	`AND`	インシデントは、各条件が満たされた場合に開かれます。異なるリソースによってこれらの条件が満たされた場合でも、インシデントは開かれます。
すべての条件が満たされている	`AND_WITH_MATCHING_RESOURCE`	同じリソースが各条件を満たすと、インシデントが開かれます。この設定は、最も厳密な組み合わせ選択です。
注: アラートポリシーは、ラベル値を使用して、条件を満たしたリソースを特定します。この組み合わせによるアラートポリシーでインシデントの作成または通知の生成を行うために次が真である必要があります。各条件は同じリソースをモニタリングする必要があります。たとえば、すべての条件でリソースタイプは `gce_instance` に設定されます。集計後に利用できるモニタリング対象リソースラベルは、すべての条件で同じでなければなりません。たとえば、`gce_instance` リソースの場合、ラベルは `project_id`、`instance_id`、`zone` です。何かしらの条件が `zone` によってグループ化されている場合、すべての条件を `zone` でグループ化する必要があります。モニタリング対象リソースとそのラベルの一覧については、モニタリング対象リソースタイプをご覧ください。

このコンテキストで、met という用語は、条件の構成が true と評価されることを意味します。たとえば、構成が Any time series is greater than 10 for 5 minutes の場合で、このステートメントが true と評価されたとき、条件は満たされています。

例

vm1 と vm2 の 2 つの VM インスタンスを含む Google Cloud プロジェクトについて考えます。また、次の 2 つの条件でアラートポリシーを作成するとします。

CPU usage is too high という名前の条件は、インスタンスの CPU 使用量をモニタリングします。この条件は、いずれかのインスタンスの CPU 使用率が 1 分間で 100 ミリ秒/秒を超えた場合に満たされます。
Excessive utilization という名前の条件は、インスタンスの CPU 使用率をモニタリングします。この条件は、いずれかのインスタンスの CPU 使用率が 1 分間で 60% を超えた場合に満たされます。

最初は、両方の条件が false と評価されることを前提としています。

次に、vm1 の CPU 使用量が 1 分間 100 ミリ秒/秒を超えたとします。CPU 使用率が 1 分間のしきい値を超えているため、条件 CPU usage is too high を満たします。条件が「いずれかの条件を満たしている」と組み合わされている場合、条件が満たされるためインシデントが作成されます。条件が「すべての条件を満たしている」または「各条件で異なるリソースであってもすべての条件を満たしている」と組み合わされている場合、インシデントは作成されません。これらの組み合わせを選択している場合は、両方の条件が満たされる必要があります。

次に、vm1 の CPU 使用率が 100 ミリ秒 / 秒を超えた状態が継続し、vm2 の CPU 使用率が 1 分間で 60% を超えたとします。その結果、両方の条件が満たされます。条件がどのように組み合わされているかによって、次のようになります。

いずれかの条件を満たしている: リソースが条件を満たすとインシデントが作成されます。この例では、vm2 は条件 Excessive utilization を満たします。

vm2 が条件 CPU usage is too high を満たすと、インシデントも作成されます。条件 CPU usage is too high が満たされる vm1 と vm2 は別々のイベントであるため、インシデントが作成されます。
各条件で異なるリソースであってもすべての条件を満たしている: 両方の条件が満たされるため、インシデントが作成されます。
すべての条件を満たしている: 同じリソースですべての条件が満たされることが必要なため、インシデントは作成されません。この例では、vm1 で CPU usage is too high が満たされ、vm2 で Excessive utilization が満たされるため、インシデントは作成されません。

部分的な指標データ

時系列データが到着しない、またはデータが遅延すると、Monitoring ではデータの欠落として分類されます。データがないと、インシデントが閉じられないことがあります。サードパーティのクラウドプロバイダからのデータ到着の遅延は 30 分に及ぶ場合があり、5～15 分の遅延が最も一般的です。非常に長い遅延（期間時間枠より長い）では、条件が「不明」状態になる可能性があります。最終的にデータが到着したときに、Monitoring で条件の最近の履歴の一部が失われている場合があります。データが到着した後では遅延の証拠がないため、時系列データを後で調べてもこの問題が明らかにならないことがあります。

Google Cloud コンソール

データの到着が停止した場合に Monitoring で指標しきい値の条件を評価する方法を構成できます。たとえば、インシデントが対応待ちで、予想される測定値が届かない場合、Monitoring でインシデントをオープンのままにするか、すぐにクローズしますか？同様に、データの到着が停止し、対応待ちのインシデントがない場合、インシデントをオープンしますか？最後に、データの到着が停止した後、インシデントをオープンにしておく期間はどれくらいですか？

データが到着しなくなったときに Monitoring で指標しきい値の条件を評価する方法を指定する 2 つの構成可能なフィールドがあります。

欠落データを置換する値を Monitoring が決める仕組みを構成するには、[条件トリガー] ステップで設定した [欠落データの評価] フィールドを使用します。再テストウィンドウが [再テストなし] に設定されている場合、このフィールドは無効になります。
データの受信が止まってから対応待ちのインシデントを閉じるまで Monitoring が待機する時間を構成するには、[Incident autoclose duration] フィールドを使用します。[通知] ステップで自動クローズの期間を設定します。デフォルトの自動クローズ期間は 7 日間です。

欠落データフィールドに関するさまざまなオプションは次のとおりです。

Google Cloud コンソール
[欠落データの評価] フィールド概要詳細

Google Cloud コンソール [欠落データの評価] フィールド	概要	詳細
欠落データがない	対応待ちのインシデントはオープンのままです。新しいインシデントはオープンされません。	条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、データが送られてこない場合、自動クローズタイマーは 15 分以上の時間をおいて開始されます。タイマーの期限が切れると、インシデントはクローズされます。条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。
欠落データポイントが、ポリシーに違反する値として扱われる	対応待ちのインシデントはオープンのままです。新しいインシデントをオープンできます。	条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、自動クローズ期間に 24 時間を加えた期間にデータが到着しない場合、インシデントはクローズされます。条件が満たされない場合は、この設定により、指標しきい値の条件が `metric-absence condition` のように動作します。再テストの時間枠で指定された時間内にデータを受信しない場合は、条件が満たされたと評価されます。条件が 1 つのアラートポリシーでは、条件が満たされるとインシデントが開始されます。
欠落データポイントが、ポリシーに違反しない値として扱われる	対応待ちのインシデントはクローズされます。新しいインシデントはオープンされません。	条件が満たされている場合、データの受信が停止すると、その条件は満たされなくなります。この条件のインシデントが対応待ちの場合、インシデントはクローズされます。条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

欠落データがない

対応待ちのインシデントはオープンのままです。
新しいインシデントはオープンされません。

条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、データが送られてこない場合、自動クローズタイマーは 15 分以上の時間をおいて開始されます。タイマーの期限が切れると、インシデントはクローズされます。

条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

欠落データポイントが、ポリシーに違反する値として扱われる

対応待ちのインシデントはオープンのままです。
新しいインシデントをオープンできます。

条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、自動クローズ期間に 24 時間を加えた期間にデータが到着しない場合、インシデントはクローズされます。

条件が満たされない場合は、この設定により、指標しきい値の条件が metric-absence condition のように動作します。再テストの時間枠で指定された時間内にデータを受信しない場合は、条件が満たされたと評価されます。条件が 1 つのアラートポリシーでは、条件が満たされるとインシデントが開始されます。

欠落データポイントが、ポリシーに違反しない値として扱われる

対応待ちのインシデントはクローズされます。
新しいインシデントはオープンされません。

条件が満たされている場合、データの受信が停止すると、その条件は満たされなくなります。この条件のインシデントが対応待ちの場合、インシデントはクローズされます。

条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

API

データが到着しなくなったときに Monitoring で指標しきい値の条件を評価する方法を指定する 2 つの構成可能なフィールドがあります。

欠落データを置換する値を Monitoring が決める仕組みを構成するには、MetricThreshold 構造の evaluationMissingData フィールドを使用します。duration フィールドがゼロの場合、このフィールドは無視されます。
データが到着しなくなった後に対応待ちのインシデントを閉じるまで Monitoring が待機する時間を構成するには、AlertStrategy 構造の autoClose フィールドを使用します。

欠落データフィールドに関するさまざまなオプションは次のとおりです。

API
　　　　　　evaluationMissingData フィールド概要詳細

API 　　　　　　`evaluationMissingData` フィールド	概要	詳細
`EVALUATION_MISSING_DATA_UNSPECIFIED`	対応待ちのインシデントはオープンのままです。新しいインシデントはオープンされません。	条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、データが送られてこない場合、自動クローズタイマーは 15 分以上の時間をおいて開始されます。タイマーの期限が切れると、インシデントはクローズされます。条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。
`EVALUATION_MISSING_DATA_ACTIVE`	対応待ちのインシデントはオープンのままです。新しいインシデントをオープンできます。	条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、自動クローズ期間に 24 時間を加えた期間にデータを受信しない場合、インシデントはクローズされます。条件が満たされない場合は、この設定により、指標しきい値の条件が `metric-absence condition` のように動作します。「期間」フィールドで指定された時間内にデータを受信しない場合は、条件が満たされたと評価されます。条件が 1 つのアラートポリシーでは、条件が満たされるとインシデントが開始されます。
`EVALUATION_MISSING_DATA_INACTIVE`	対応待ちのインシデントはクローズされます。新しいインシデントはオープンされません。	条件が満たされている場合、データの受信が停止すると、その条件は満たされなくなります。この条件のインシデントが対応待ちの場合、インシデントはクローズされます。条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

EVALUATION_MISSING_DATA_UNSPECIFIED

対応待ちのインシデントはオープンのままです。
新しいインシデントはオープンされません。

条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

EVALUATION_MISSING_DATA_ACTIVE

対応待ちのインシデントはオープンのままです。
新しいインシデントをオープンできます。

条件が満たされている場合、データが到着しなくなっても、条件は引き続き満たされます。この条件でインシデントが対応待ちの場合、インシデントはオープンのままになります。インシデントが対応待ちで、自動クローズ期間に 24 時間を加えた期間にデータを受信しない場合、インシデントはクローズされます。

条件が満たされない場合は、この設定により、指標しきい値の条件が metric-absence condition のように動作します。「期間」フィールドで指定された時間内にデータを受信しない場合は、条件が満たされたと評価されます。条件が 1 つのアラートポリシーでは、条件が満たされるとインシデントが開始されます。

EVALUATION_MISSING_DATA_INACTIVE

対応待ちのインシデントはクローズされます。
新しいインシデントはオープンされません。

条件が満たされていない場合、データが到着しなくなっても、条件は引き続き満たされません。

次のいずれかの方法で、データの欠落による問題を最小限に抑えることができます。

サードパーティクラウドプロバイダに連絡して、指標収集のレイテンシを低減する方法を確認してください。
条件で使用する期間時間枠を長くします。期間時間枠を拡張すると、アラートポリシーの応答性が低下するというデメリットがあります。
次のような、収集の遅延が少ない指標を選択します。
- Monitoring エージェントの指標（特に、エージェントがサードパーティのクラウドの VM インスタンス上で実行されている場合）。
- カスタム指標（データを Cloud Monitoring に直接書き込む場合）。
- ログベースの指標（ログエントリの収集が遅延しない場合）。

詳しくは、モニタリングエージェントの概要、ユーザー定義指標の概要、ログベースの指標をご覧ください。

ポリシーごとの通知とインシデント

Monitoring でインシデントが作成されてアラートポリシーの通知が送信されないようにするには、スヌーズを作成し、スヌーズ条件にアラートポリシーを含めます。スヌーズが有効の場合、そのアラートポリシーでは、インシデントの作成も通知の送信も行われません。

ポリシーが有効で、有効なスヌーズの条件と一致しない場合は、インシデントが作成され、通知が送信されることがあります。このセクションでは、ポリシーごとの対応待ちインシデント数の上限と、同じインシデントに複数の通知が表示されるタイミングついて説明します。

ポリシーごとの対応待ちインシデント数

アラートポリシーは多くのリソースに適用できるため、リソース全体に影響を及ぼす問題がアラートポリシーによって各リソースのインシデントを開く可能性があります。インシデントは、条件が満たされている時系列ごとに開かれます。

システムの過負荷を防ぐため、1 つのポリシーの対応待ちインシデントの数は 1,000 に制限されています。

たとえば、2,000 個の Compute Engine インスタンスに適用されるポリシーがあり、各インスタンスでアラートの条件が満たされるとします。Monitoring では、対応待ちインシデントの数を 1,000 に制限しています。ポリシーに対する対応待ちのインシデントが閉じられるまで、満たされている残りの条件はどれも無視されます。

ポリシーごとの通知数

デフォルトでは、時系列が条件を満たすと通知が送信されます。次のいずれかに該当する場合は、複数の通知が送信されることがあります。

条件が複数の時系列をモニタリングする。
ポリシーに複数の条件が含まれている。
- すべての条件を満たす場合は、条件が満たされるたびに、モニタリングによって通知が送信され、インシデントが作成されます。たとえば、2 つの条件を持つポリシーがあり、各条件が 1 つの時系列をモニタリングしているとします。すべての条件が満たされると、通知が 2 回送信され、インシデントが 2 件表示されます。
- いずれかの条件を満たしている: 条件が満たされるたびに、アラートポリシーが通知を送信します。たとえば、2 つの条件を持つポリシーがあり、各条件が 1 つの時系列をモニタリングしているとします。最初の条件を満たしているとします。これにより、インシデントがオープンになり、通知が送信されます。後続の測定で 2 番目の条件が満たされたときに、そのインシデントがオープンのままの場合は、別の通知が送信されます。

Cloud Monitoring API を使用して作成されたアラートポリシーは、条件が満たされたとき、および条件が満たされなくなったときに通知します。デフォルトの場合、Google Cloud コンソールを使用して作成されたアラートポリシーでは、インシデントがオープンされたときに通知されます。インシデントのクローズ時には、通知されません。インシデントのクローズ時の通知は、有効にすることもできます。

無効化されたアラートポリシーの通知

アラートポリシーを無効にしても、アラートポリシーは条件の評価を続けます。ただし、インシデントは作成されず、通知は送信されません。

無効化されたポリシーを有効にした場合、Monitoring により最新の時間枠でのすべての条件の値が検査されます。直近の期間には、ポリシーが有効になる前、途中、および後に取得されたデータが含まれる場合があります。無効化されたポリシーの条件は、期間時間枠が長い場合でも、ポリシーを再開した直後に満たすことができます。

たとえば、特定のプロセスをモニタリングするアラートポリシーがあり、このポリシーを無効にするとします。翌週にはプロセスが停止し、アラートポリシーが無効のため通知されません。プロセスを再起動してすぐにアラートポリシーを有効にすると、Monitoring はプロセスが過去 5 分間稼働していないことを認識し、インシデントをオープンにします。

アラートポリシーを無効にした場合、対応待ちのインシデントは、自動クローズ期間が終了するまでオープンのままになります。アラートポリシーをスヌーズすると、そのポリシーに関連するすべての対応待ちのインシデントが閉じられます。ただし、スヌーズが終了すると、新しいインシデントが開かれる可能性があります。詳しくは、通知とアラートのスヌーズをご覧ください。

有効なスヌーズの条件に一致するポリシーの通知

アラートポリシーによる短い間隔での通知の送信を止めるには、アラートポリシーを無効にするのではなく、スヌーズを作成することをおすすめします。たとえば、仮想マシン（VM）のメンテナンスを行う前に、スヌーズを作成し、スヌーズの条件にインスタンスをモニタリングするアラートポリシーを追加できます。

アラートポリシーの条件が満たされ、そのポリシーがアクティブなスヌーズの条件を満たしている場合、インシデントは作成されず、通知は送信されません。スヌーズの期限が切れると、アラートポリシーはインシデントを作成し、通知を送信できます。

繰り返し通知を送信する

対応待ちの確認済みインシデントの通知受信者にリマインダーを送信するには、繰り返し通知を設定します。この機能は、リソース不足でサービス障害を引き起こす可能性がある重要なリソースをモニタリングするアラートポリシーに役立ちます。たとえば、空きディスク容量をモニタリングするアラートポリシーに対して、繰り返し通知を設定できます。

デフォルトでは、アラートポリシーはインシデントが開かれたときに各通知チャネルに 1 つの通知を送信します。ただし、デフォルトの動作を変更して、アラートポリシー通知チャネルのすべてまたは一部に通知を再送信するようにアラートポリシーを構成できます。これらの繰り返し通知は、ステータスが [対応待ち] または [確認済み] のインシデントに送信されます。これらの通知の間隔は 30 分以上 24 時間以内で、秒単位で表されます。

Google Cloud コンソール

Google Cloud コンソールで繰り返し通知を構成することはできません。代わりに Google Cloud CLI または API を使用してください。

API

AlertStrategy オブジェクトに少なくとも 1 つの NotificationChannelStrategy オブジェクトを追加します。NotificationChannelStrategy オブジェクトには次の 2 つのフィールドがあります。

renotifyInterval: 繰り返し通知の間隔（秒）。

renotifyInterval フィールドの値はいつでも変更できます。間隔を変更したときにアラートポリシーに関連するインシデントが対応待ちの場合、アラートポリシーはインシデントに対して別の通知を送信し、その間隔を再開します。
notificationChannelNames: 通知チャネルのリソース名の配列。projects/PROJECT_ID/notificationChannels/CHANNEL_ID 形式の文字列です。これらの通知チャネルは、renotifyInterval 値で定義された間隔で繰り返し通知を受け取ります。

リソース名のチャネル ID は数値です。チャネル ID を取得する方法については、プロジェクト内の通知チャネルを一覧表示するをご覧ください。

たとえば、次の JSON サンプルは、1,800 秒（30 分）ごとに繰り返し通知を一覧にある通知チャネルに送信するように構成されたアラート戦略を示しています。

  "alertStrategy": {
    "notificationChannelStrategy": [
      {
        "notificationChannelNames": [
          "projects/PROJECT_ID/notificationChannels/CHANNEL_ID"
        ],
        "renotifyInterval": "1800s"
      }
    ]
  }

API を使用してアラートポリシーを作成する方法の詳細については、API によりアラートポリシーを作成するをご覧ください。

繰り返し通知を一定期間停止するには、アラートポリシーのスヌーズを無効にするか、作成します。繰り返しの通知を完全に停止するには、API を使用してアラートポリシーを編集し、NotificationChannelStrategy オブジェクトを削除します。

レイテンシ

レイテンシとは、Monitoring が指標をサンプリングしてから、指標データポイントが時系列データとして表示されるまでの遅延を指します。レイテンシは通知の送信タイミングに影響します。たとえば、モニタリング対象指標のレイテンシが最大 180 秒の場合、アラートポリシー条件が true と評価されてから最大 180 秒間、Monitoring によってインシデントが作成されません。詳しくは、指標データのレイテンシをご覧ください。

レイテンシに影響するイベントと設定は次のとおりです。

指標収集の遅延: Monitoring が指標値を収するために必要とする時間。Google Cloud の値の場合、ほとんどの指標は収集後 60 秒間表示されません。ただし、その遅れは指標によって異なります。アラートポリシーの計算には、さらに 60～90 秒の遅延が発生します。AWS CloudWatch 指標の場合、表示に関わる遅延が数分になることがあります。稼働時間チェックでは、これは（時間枠の最後から）平均で 2 分になります。
期間時間枠: 条件用に構成された時間枠。時間枠全体にわたって条件が真である場合にのみ、条件が満たされます。たとえば、時間枠を 5 分に設定すると、イベントが最初に発生したときから少なくとも 5 分後に通知の遅延が発生します。
通知の到着時間: メールや SMS などの通知チャンネル自体に、ネットワークやその他の遅延（配信される内容とは関係なく）が発生することがあり、場合によっては分単位になります。SMS や Slack などの一部のチャネルでは、メッセージが配信される保証はありません。

次のステップ

アラートポリシーを作成する方法については、次のドキュメントをご覧ください。
アラートポリシーの詳細については、サンプルポリシーをご覧ください。

指標ベースのアラート ポリシーの動作

アライメント期間と長さの設定

アライメント期間

Google Cloud コンソール

API

時間枠

Google Cloud コンソール

API

アライメント期間と期間時間枠を設定する際のベスト プラクティス

複数の条件を持つポリシー

Google Cloud コンソール

API

部分的な指標データ

Google Cloud コンソール

API

ポリシーごとの通知とインシデント

ポリシーごとの対応待ちインシデント数

ポリシーごとの通知数

無効化されたアラート ポリシーの通知

有効なスヌーズの条件に一致するポリシーの通知

繰り返し通知を送信する

Google Cloud コンソール

API

レイテンシ

次のステップ

指標ベースのアラートポリシーの動作

アライメント期間と期間時間枠を設定する際のベストプラクティス

無効化されたアラートポリシーの通知