アラートの概要

このドキュメントでは、アプリケーションが失敗した場合や、アプリケーションのパフォーマンスが定義された基準を満たさない場合に、通知を受け取る方法について説明します。

アラートの仕組み

Cloud Monitoring アラートプロセスは、次の 3 つの部分で構成されています。

アラートポリシー、アラートを受け取る状況とインシデントの通知方法を記述します。アラートポリシーでは、Monitoring によって保存された時系列データまたは Cloud Logging によって保存されたログをモニタリングできます。そのデータがアラートポリシーの条件を満たす場合、Monitoring はインシデントを作成し、通知を送信します。
各インシデントは、モニタリングされたデータの種類と条件が満たされた日時を表します。この情報は、インシデントの原因となった問題のトラブルシューティングに役立ちます。
通知チャネルは、Monitoring によってインシデントが作成されたときに通知を受け取る方法を定義します。たとえば、通知チャネルを構成して、my-support-team@example.com にメールを送信し、チャネル #my-support-team に Slack メッセージを投稿できます。アラートポリシーには、1 つ以上の通知チャネルを含めることができます。

アラートポリシーでは、次の 2 種類のデータを評価できます。

時系列データ（指標データとも呼ばれる）。Monitoring によって保存されます。これらのタイプのポリシーは、指標ベースのアラートポリシーと呼ばれます。

指標ベースのアラートポリシーの設定方法については、Compute Engine のクイックスタートをご覧ください。
Cloud Logging によって保存されたログデータ。これらのタイプのポリシーは、ログベースのアラートポリシーと呼ばれます。ログベースのアラートポリシーは、ログに特定のメッセージが表示されるときに通知します。

このドキュメントでは、指標ベースのアラートポリシーに焦点を当て、必要に応じてログベースのアラートポリシーに関する一般的な情報を示します。ログベースのアラートポリシーの詳細については、ログのモニタリングをご覧ください。

アラートプロセスは、アプリケーションのパフォーマンスが許容値を満たしていない場合に、問題に対処するのに役立ちます。たとえば、ウェブアプリケーションを Compute Engine 仮想マシン（VM）インスタンスにデプロイします。HTTP レスポンスのレイテンシは変動することが予想されますが、アプリケーションのレイテンシが長期間高いときには、サポートチームが応答するようにする必要があります。アプリケーションの HTTP レスポンスのレイテンシ指標をモニタリングする指標ベースのアラートポリシーを作成できます。レスポンスのレイテンシが少なくとも 5 分間で 2 秒を超える場合は、インシデントが作成され、サポートチームにメール通知が送信されます。

アラートポリシーの作成方法

アラートポリシーを作成するには、複数の方法があります。たとえば、Google Cloud コンソールの統合や特定のページから推奨されるアラートを有効にすることで、事前構成されたアラートポリシーを使用できます。Google Cloud コンソール、Cloud Monitoring API 、Google Cloud CLIおよびTerraformを使用して新しいアラートポリシーを構成することもできます。

統合と推奨アラートポリシーを使用する

Monitoring には、Google Cloud サービスとサードパーティ統合用のアラートポリシーを作成できるビルド済みパッケージが用意されています。パッケージには、推奨されるアラートポリシー、サンプルダッシュボード、サービスの主要な指標が含まれています。これらのパッケージは、Google Kubernetes Engine、Compute Engine、Cloud SQL などの Google Cloud サービスと、MongoDB、Kafka、Elasticsearch などの一般的なサードパーティ統合で使用できます。

パッケージをインストールするときに、パッケージの推奨アラートポリシーを有効にできます。推奨アラートポリシーを有効にする場合は、通知チャネルを構成し、必要に応じて他の値を変更します。構成後、アラートポリシーはターゲットのモニタリングをすぐに開始します。ユーザー入力は必要ありません。

推奨されるアラートポリシーは、新しいサービスをデプロイし、重要な指標に基づいてアラートを送信する際に役立ちます。たとえば、Cloud SQL 統合パッケージには、失敗したインスタンスと遅いトランザクションに関する推奨アラートが付属しています。

CloudSQL 統合パッケージに推奨される 2 つのアラート。

アラートの統合の詳細については、サードパーティアプリケーションのモニタリングをご覧ください。

Cloud Monitoring を使用する

アラートポリシーを作成し、その条件タイプとともに指標タイプや時系列などのコンポーネントを選択する場合は、Monitoring を使用します。次の表に、アラートポリシーを作成するときに使用できるさまざまなタイプの条件を示します。

Condition Type	説明	例
指標しきい値条件	指標しきい値条件は、特定の時間枠で指標の値がしきい値を上回るか下回ると満たされます。詳細については、指標しきい値のアラートポリシーを作成すると API を使用してアラートポリシーを作成するをご覧ください。	10 分を超える連続する 5 回の稼働時間チェックで、レスポンスレイテンシが 500 ミリ秒以上の場合に通知を送信するアラートポリシーが必要です。
指標の不在条件	「指標の不在」条件は、モニタリング対象時系列に特定の期間時間枠のデータがない場合に満たされます。期間時間枠は、Google Cloud コンソールまたは Cloud Monitoring API で条件を作成する場合、最大 24 時間です。詳細については、指標の不在アラートポリシーの作成と API を使用してアラートポリシーを作成するをご覧ください。	リソースが 5 分間で HTTP リクエストに応答しない場合、サポートチームとのインシデントを開くアラートポリシーが必要です。
予測指標値の条件	予測指標値の条件は、アラートポリシーにより、今後の予測期間内にしきい値をまたぐことが予測される場合に満たされます。予測ウィンドウは 1 時間から 7 日間の間で設定できます。詳細については、予測指標値のアラートポリシーの作成と API を使用してアラートポリシーを作成するをご覧ください。	リソースが 24 時間以内にディスク容量の使用率が 80% に達する可能性がある場合、サポートチームとのインシデントを開くアラートポリシーが必要です。
ログベースの条件	ログベースのアラートポリシーの条件は、アラートポリシーがアラートポリシーの条件と一致するログベースの指標が検出されると満たされます。ログベースの指標は、ログエントリの内容から指標データを取得します。たとえば、ログベースの指標を使用して、特定のメッセージを含むログエントリの数をカウントできます。または、ログエントリに記録されたレイテンシ情報を抽出することもできます。詳細については、ログベースのアラートの構成と Monitoring API を使用してログベースのアラートを作成するをご覧ください。	プロジェクトに `product_ids=['tier_1_support', 'tier_2_support']` を含む `message` を持つログエントリが少なくとも 50 件ある場合、サポートチームとのインシデントを開くアラートポリシーが必要です。

通知ポリシーのコンポーネント

各アラートポリシーには次のコンポーネントがあります。

1 つのリソースまたはリソースのグループが、レスポンスを必要とする状態かどうかを表す条件。条件には、データソース、静的または動的しきい値、データ集計方法（ルックバックウィンドウ、フィルタ、groupby など）が含まれます。条件では、単一の指標、複数の指標、または指標の比率をモニタリングできます。PromQL や Monitoring Query Language（MQL）などのクエリ言語を使用して、動的しきい値や条件ロジックなどの複雑な式を含めることもできます。

統合を使用して推奨アラートポリシーを有効にする場合、アラートポリシー条件は事前入力されます。
アクションが必要なユーザーを通知する通知チャネルのリスト。詳細については、通知チャンネルを作成して管理するをご覧ください。
通知とインシデントのページに表示されるドキュメント。通知の件名を構成し、通知の本文に有用な情報を追加できます。たとえば、内部ハンドブックやカスタムダッシュボードなどの Google Cloud ページへのリンクを表示するように通知を構成できます。例を含むドキュメントの詳細については、ユーザー定義のドキュメントでアラートにアノテーションを付けるをご覧ください。

クエリ言語

アラートポリシーでクエリ言語とフィルタを使用すると、指標の評価をより詳細に制御できます。Monitoring は、次のクエリタイプをサポートしています。

Prometheus Query Language（PromQL）は、時系列データをリアルタイムで評価するために使用される機能的なクエリ言語です。アラートポリシーの条件を構成して、条件に PromQL クエリを含めることができます。PromQL クエリでは、指標の組み合わせ、比率、スケーリングしきい値などの有効な式を使用できます。Google Cloud の PromQL ベースの条件を使用してアラートポリシーを構成することで、外部アラートインフラストラクチャへの依存関係を減らすことができます。詳細については、Cloud Monitoring の PromQL と PromQL によるアラートポリシーをご覧ください。
Monitoring Query Language（MQL）は、表現力の高いテキストベースのインターフェースであり、時系列データの取得、フィルタリング、操作を行うことができます。Monitoring Query Language アラートオペレーションを含む条件でアラートポリシーを作成できます。詳細については、Monitoring Query Language の概要と MQL のアラートポリシーをご覧ください。
モニタリングフィルタを使用すると、フィルタベースの指標率を使用するようにアラートポリシーを構成できます。フィルタベースのアラートポリシーは、Google Cloud コンソールで表示または変更することはできません。モニタリングフィルタを使用するポリシーの例については、指標率をご覧ください。

アラートポリシーとインシデントを管理する

アラートポリシーの構成後、Monitoring はそのポリシーの条件を継続的にモニタリングします。特定の期間のみの条件をモニタリングするようにアラートポリシーを構成することはできません。特定の期間にアラートポリシーを無効にする場合は、スヌーズを作成します。

インシデントが未解決のまま残っていて、Monitoring で指標ベースのポリシーの条件が満たされなくなったと判断された場合、Monitoring は自動的にインシデントを終結させて、終結に関する通知を送信します。

料金

一般に、Cloud Monitoring システムの指標は無料であり、外部システム、エージェント、またはアプリケーションの指標はそうではありません。課金対象の指標は、取り込まれたバイト数とサンプル数のいずれかによって課金されます。

Cloud Monitoring の料金の詳細については、次のドキュメントをご覧ください。

取り込まれるトレーススパンまたはログの数をモニタリングする方法や、ログエントリに特定のコンテンツが含まれている場合に通知を受ける方法については、次のドキュメントをご覧ください。

次のステップ

通知レイテンシと、アラートポリシーのパラメータの選択が通知送信のタイミングに及ぼす影響については、指標ベースのアラートポリシーの動作をご覧ください。
指標ベースのポリシーサンプルの一覧については、アラートポリシーサンプルの概要をご覧ください。