アラート ポリシーの種類

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

このドキュメントでは、さまざまな種類の指標ベースのアラート ポリシーについて説明し、これらのポリシーの JSON の例を紹介します。アラート ポリシーは、ある期間に、ある方法で動作する、ある指標という 3 つを監視する条件を定義します。たとえば、指標の値がしきい値を超えた場合や、値が急速に変化した場合にアラート ポリシーがトリガーされることがあります。

このコンテンツは、ログベースのアラート ポリシーには適用されません。ログに特定のメッセージが表示されたときに通知する、ログベースのアラート ポリシーの詳細については、ログのモニタリングをご覧ください。

アラート ポリシーの作成については、次のドキュメントをご覧ください。

指標の不在条件:

指標の不在条件は、モニタリング対象の時系列に特定の期間時間枠のデータがない場合にトリガーされます。

指標の不在条件では、そのポリシーのインストールまたは変更後、最大期間時間枠内に測定が 1 回以上成功(測定でデータが取得される)している必要があります。構成可能な最大期間時間枠は、Google Cloud コンソールを使用する場合は 24 時間、Cloud Monitoring API を使用する場合は 24.5 時間です。

たとえば、「指標の不在」ポリシーで期間時間枠を 30 分に設定しているとします。指標データを書き込むサブシステムが一度もデータポイントを書き込んでいない場合、この条件はトリガーされません。サブシステムが 1 つ以上のデータポイントを出力していて、その後の 30 分間に追加のデータポイントが出力できない場合に条件が満たされます。

指標しきい値条件

指標しきい値条件は、指標の値が特定の期間時間枠を上回る、または下回るときにトリガーされます。たとえば、CPU 使用率が 5 分以上で 80% を超えると、指標しきい値条件がトリガーされます。

「指標しきい値」条件のクラス内には、一般的なサブカテゴリに分類されるパターンがあります。

  • 変更率条件は、期間時間枠内で時系列の値が特定のパーセント以上増加または減少した場合にトリガーされます。

    このタイプの条件を作成すると、しきい値との比較する前に、変化率の計算が時系列に適用されます。

    この条件では、過去 10 分間の指標の値の平均が、期間時間枠の直前に測定された 10 分間の平均値と比較されます。「指標の変化率」条件で使用される 10 分間のルックバック時間枠は固定値であり、変更できません。ただし、条件を作成するときに期間時間枠を指定できます。

  • グループ集計条件は、リソース グループ全体で測定された指標が期間時間枠のしきい値を超えるとトリガーされます。

  • 稼働時間チェック条件は、稼働時間チェックが、2 つ以上の地理的ロケーションから送信されたリクエストに正常に応答できない場合にトリガーされます。

  • プロセスの状態条件は、VM インスタンスで実行されているプロセスの数がしきい値を上回るか下回った場合にトリガーされます。これらの条件を構成して、命名規則と一致するインスタンスのグループをモニタリングすることもできます。

    この条件タイプでは、Ops エージェントまたは Monitoring エージェントがモニタリング対象リソースで実行されている必要があります。エージェントの詳細については、Google Cloud オペレーション スイートのエージェントをご覧ください。

  • 指標比率条件は、2 つの指標の比率が期間時間枠のしきい値を超えるとトリガーされます。これらの条件では、すべての HTTP レスポンスに対する HTTP エラー レスポンスの比率など、2 つの指標の比率を計算します。

    比率ベースのポリシーの詳細については、比率のアラートの条件をご覧ください。

予測条件

予測条件は、今後の予測ウィンドウ内でしきい値に違反する予測を生成するとトリガーされます。予測により、時系列が将来の期間である予測ウィンドウ内のしきい値に違反するかどうかが予測されます。予測ウィンドウの範囲は 1 時間(3,600 秒)から 7 日間(604,800 秒)です。

ほとんどの指標をモニタリングするときは、予測を使用できます。ただし、割り当て、ディスク容量、メモリ使用量など、制約されたリソースをモニタリングすると、しきい値に違反する前に予測条件が通知します。この機能により、しきい値に違反する前に、制約されたリソースがどのように使用されるかに対応する時間を確保できます。

予測条件でモニタリングされる時系列ごとに、条件は決定アルゴリズムをインスタンス化します。そのアルゴリズムがトレーニングされると、条件が評価されるたびに予測が生成されます。各予測は、時系列が予測ウィンドウ内でしきい値に違反する、または違反しない予測です。モニタリング対象の時系列が一定の周期を持つ場合、その時系列の決定アルゴリズムは、定期的な動作を予測に組み込みます。

次のいずれか、または両方が発生すると、予測条件がトリガーされます。

  • 特定の期間時間枠内の時系列のすべての値は、しきい値に違反します。
  • 期間時間枠内で行われた特定の時系列の予測はすべて、時系列が予測ウィンドウ内のしきい値に違反すると予測します。

決定アルゴリズムの初期トレーニング時間は、予測ウィンドウの長さの 2 倍です。たとえば、予測ウィンドウが 1 時間の場合、2 時間のトレーニング時間が必要です。各時系列の決定アルゴリズムは、個別にトレーニングされます。決定アルゴリズムがトレーニングされている間、時系列は、指定された値が時間枠のしきい値に違反した場合にのみ条件をトリガーできます。

最初のトレーニングが完了すると、各決定アルゴリズムは、予測ウィンドウの長さの最大 6 倍までのデータを使用して継続的にトレーニングされます。たとえば、予測ウィンドウが 1 時間の場合、直近 6 時間のデータが継続トレーニング中に使用されます。

予測条件を構成した後、10 分以上データの到着が停止した場合、予測は無効になり、条件は指標しきい値条件として動作します。

予測アラートのインシデントの作成と管理の方法は、指標しきい値と指標の不在条件の場合と同じです。時系列が予測ウィンドウ内でしきい値に違反しないと予測すると、インシデントは自動的にクローズされます。

制限事項

  • 条件は、Monitoring フィルタを使用して構成する必要があります。Google Cloud コンソールのメニュー形式のインターフェースを使用する場合、選択は Monitoring フィルタに変換されます。
  • 指標の比率をモニタリングする場合は、Cloud Monitoring API を使用してアラート ポリシーを構成する必要があります。詳細については、Cloud Monitoring API のアラート ポリシー指標率をご覧ください。
  • Monitoring Query Language または PromQL を使用して条件を構成することはできません。
  • Amazon VM インスタンスからの指標を除き、double 型または int64 型の値タイプを持つすべての指標がサポートされます。

各ポリシータイプの例は次のリンクから入手できます。

条件タイプ JSON の例 Google Cloud コンソール
指標しきい値 ビュー 手順
変化率 ビュー 手順
グループ集計 ビュー 手順
稼働時間チェック ビュー 手順
プロセスの状態 ビュー 手順
指標率 ビュー 手順
予測 ビュー 手順

次のステップ