このページは Cloud Translation API によって翻訳されました。

アラートの費用を管理する

2026 年 4 月以降、Cloud Monitoring でアラートポリシーの使用に対する課金が開始されます。料金モデルについては、アラートの料金をご覧ください。

このドキュメントでは、アラートの費用を削減するために活用できる戦略について説明します。

アラートポリシーを統合して、より多くのリソースに対して動作するようにする

条件ごとに $1.50 の費用がかかるため、1 つのアラートポリシーを使用して各リソースをモニタリングするよりも、1 つのアラートポリシーを使用して複数のリソースをモニタリングするほうが費用対効果が高くなります。以下の例を考えてみましょう。

例 1

データ

100 VM
各 VM が 1 つの指標 metric_name を出力します。
metric_name には 10 個の値が含まれる 1 つのラベルがあります。

アラートポリシー

1 つのアラート条件
VM レベルでの条件の集計
30 秒間の実行期間

発生する費用

条件費用: 1 条件 x 月額 $1.50 = 1 か月あたり $1.50
時系列費用: 実行期間ごとに返される時系列 100 件 * 1 か月あたり 86,400 回の実行期間 = 1 か月あたりに返される時系列 860 万件 * 100 万件の時系列ごとに $0.35 = 1 か月あたり $3.02
合計費用: 月あたり $4.52

例 2

データ

100 VM
各 VM が 1 つの指標 metric_name を出力します。
metric_name には 10 個の値が含まれる 1 つのラベルがあります。

アラートポリシー

100 件の条件
各条件がフィルタされ、1 つの VM に集計されます。
30 秒間の実行期間

発生する費用

条件費用: 100 条件 x 月額 $1.50 = 1 か月あたり $150
時系列費用: 100 の条件 * 実行期間ごとに返される 1 条件あたりの時系列 1 件 * 1 か月あたり 86,400 回の実行期間 = 1 か月あたりに返される時系列 860 万件 * 100 万件の時系列ごとに $0.35 = 1 か月あたり $3.02
合計費用: 月あたり $153.02

どちらの例でも、同じ数のリソースをモニタリングします。ただし、例 2 では 100 アラートポリシーを使用していますが、例 1 では 1 つのアラートポリシーのみを使用しています。その結果、例 1 の 1 か月あたりの料金は $150 近く低くなります。

アラートが必要なレベルのみに集計する

より高いレベルの粒度に集計すると、低い粒度に集計する場合よりもコストが高くなります。たとえば、 Google Cloud プロジェクトレベルでの集計はクラスタレベルでの集計よりも費用が安く、クラスタレベルでの集計はクラスタレベルと名前空間レベルでの集計よりも費用が安くなります。

以下の例を考えてみましょう。

例 1

データ

100 VM
各 VM が 1 つの指標 metric_name を出力します。
metric_name には 10 個の値が含まれる 1 つのラベルがあります。

アラートポリシー

1 つのアラート条件
VM レベルでの条件の集計
30 秒間の実行期間

発生する費用

条件費用: 1 条件 x 月額 $1.50 = 1 か月あたり $1.50
時系列費用: 実行期間ごとに返される時系列 100 件 * 1 か月あたり 86,400 回の実行期間 = 1 か月あたりに返される時系列 860 万件 * 100 万件の時系列ごとに $0.35 = 1 か月あたり $3.02
合計費用: 月あたり $4.52

例 4

データ

100 台の VM。各 VM は 1 つのサービスに属します
合計で 5 つのサービス
各 VM が 1 つの指標 metric_name を出力します。
metric_name には 10 個の値が含まれる 1 つのラベルがあります。

アラートポリシー

1 件の条件
サービスレベルでの条件の集計
30 秒間の実行期間

発生する費用

条件費用: 1 条件 x 月額 $1.50 = 1 か月あたり $1.50
時系列費用: 実行期間ごとに返される時系列 5 件 * 1 か月あたり 86,400 回の実行期間 = 1 か月あたりに返される時系列 432,000 件 * 100 万件の時系列ごとに $0.35 = 1 か月あたり $0.14
合計費用: 月あたり $1.64

例 5

データ

100 VM
各 VM が 1 つの指標 metric_name を出力します。
metric_name には 100 個のラベルがあり、それぞれに 1,000 個の値があります

アラートポリシー

1 件の条件
VM レベルでの条件の集計
30 秒間の実行期間

発生する費用

条件費用: 1 条件 x 月額 $1.50 = 1 か月あたり $1.50
時系列費用: 実行期間ごとに返される時系列 100 件 * 1 か月あたり 86,400 回の実行期間 = 1 か月あたりに返される時系列 850 万件 * 100 万件の時系列ごとに $0.35 = 1 か月あたり $3.02
合計費用: 月あたり $4.52

例 1 と例 4 を比較すると、どちらの例も、同じ基になるデータに対して動作し、また、アラートポリシーが 1 つだけあります。ただし、例 4 のアラートポリシーはサービスに集約されるため、VM に詳細に集約される例 1 のアラートポリシーよりも費用が安いです。

また、例 1 と例 5 を比較すると、例 5 の指標のカーディナリティは例 1 の指標のカーディナリティの 10,000 倍です。ただし、例 1 と例 5 のアラートポリシーは両方とも VM に集約され、どちらの例でも VM の数が同じであるため、料金は同じです。

アラートポリシーを構成する場合は、ユースケースに最適な集計レベルを選択します。たとえば、CPU 使用率に関するアラートを重視する場合は、VM と CPU のレベルで集計できます。エンドポイントごとのレイテンシに関するアラートを重視する場合は、エンドポイントレベルで集計できます。

未集計の元データに関するアラートを発生させない

Monitoring はディメンション指標システムを使用します。このシステムでは、指標の合計 [cardinality][cardinality] は、モニタリング対象リソースの数にその指標のラベルの組み合わせを掛けた数と等しくなります。たとえば、指標を出力する VM が 100 個あり、その指標にそれぞれ 10 個の値を持つ 10 個のラベルがある場合、合計カーディナリティは 100 * 10 * 10 = 10,000 です。

カーディナリティのスケーリングによっては、元データに対するアラートの費用が非常に高くなることがあります。上記の例では、実行期間ごとに 10,000 件の時系列が返されます。ただし、VM ごとに集計した場合、基になるデータのラベルカーディナリティとは関係なく、実行期間ごとに 100 件の時系列のみが返されます。

また、元データに基づくアラートには、指標に新しいラベルが追加されると時系列が増加するというリスクもあります。上記の例では、ユーザーが指標に新しいラベルを追加すると、合計カーディナリティが 100 x 11 x 10 = 11,000 件の時系列にまで増加します。この場合、アラートポリシーに変更がなくても、実行期間ごとに返される時系列の数が 1,000 増加します。代わりに VM ごとに集計すると、基になるカーディナリティは増加しても、返される時系列は 100 件のみになります。

不要なレスポンスをフィルタで除外する

アラートのニーズに必要なデータのみを評価するように条件を構成します。修正するための措置を取らない場合は、その条件をアラートポリシーから除外します。たとえば、インターンの開発用 VM に関してアラートを出す必要はないでしょう。

不要なアラートや費用を削減するために、重要でない時系列をフィルタで除外できます。 Google Cloud メタデータラベルを使用すると、アセットにカテゴリでタグ付けし、不要なメタデータカテゴリをフィルタで除外できます。

トップストリーム演算子を使用して、返される時系列の数を減らす

条件で PromQL または MQL クエリを使用する場合は、トップストリーム演算子を使用して、最も高い値で返される時系列の数を選択できます。

PromQL: topk
MQL: top

たとえば、PromQL クエリの topk(metric, 5) 句は、実行期間ごとに返される時系列の数を 5 に制限します。

時系列の数に制限を加えると、次のようなデータの欠落やアラートの不具合が発生する可能性があります。

N 件以上の時系列がしきい値を超えた場合、上位 N 件の時系列外のデータが失われます。
違反する時系列が上位 N 件の時系列外で発生した場合は、除外された時系列がしきい値をまたいでもインシデントが自動的にクローズされる可能性があります。
条件クエリで、想定したとおりに機能しているベースライン時系列などの重要なコンテキストが示されない場合があります。

このようなリスクを軽減するには、N に大きい値を選択し、多数の時系列を評価するアラートポリシー（個々の Kubernetes コンテナのアラートなど）でのみトップストリーム演算子を使用します。

実行期間を長くする（PromQL のみ）

条件で PromQL クエリを使用する場合、条件の evaluationInterval フィールドを設定して、実行期間の長さを変更できます。

評価間隔が長いほど、1 か月間に返される時系列は少なくなります。たとえば、15 秒間隔の条件クエリは、30 秒間隔のクエリの 2 倍の頻度で実行され、1 分間隔のクエリは、30 秒間隔のクエリの半分の頻度で実行されます。

アラートの費用を管理する

アラート ポリシーを統合して、より多くのリソースに対して動作するようにする

アラートが必要なレベルのみに集計する

未集計の元データに関するアラートを発生させない

不要なレスポンスをフィルタで除外する

トップストリーム演算子を使用して、返される時系列の数を減らす

実行期間を長くする（PromQL のみ）

アラートポリシーを統合して、より多くのリソースに対して動作するようにする