Google Cloud アーキテクチャ フレームワークのこのドキュメントでは、信頼性の高いサービスの運用に役立つアラートを作成するための運用原則を説明します。サービスがどのように機能しているかに関する情報が多いほど、問題が発生した際に、より多くの情報に基づいて判断することが可能になります。ユーザーに影響を与えるシステムの問題をすべて素早く正確に検出するようにアラートを設計し、誤検出を最小限に抑えます。
アラートの遅延を最適化する
運用チームに負荷のかける早すぎるアラートと、サービスの長時間停止の原因となる遅すぎるアラートのバランスを取る必要があります。モニタリング システムで問題を担当者に通知する前に、アラートの遅延を調整して、信号対雑音を最大化しながら検出時間を最小化します。エラー バジェットの消費率から、最適なアラート構成を導き出します。
原因ではなく症状をアラート対象にする
ユーザー エクスペリエンスへの直接的な影響に基づいてアラートをトリガーします。グローバル SLO または顧客ごとの SLO に関する違反は、直接的な影響があります。特に影響が単一のレプリカに限定されている場合は、障害の根本的な原因をすべてアラート対象にしないでください。適切に設計された分散システムは、単一レプリカの障害からシームレスに回復します。
平均ではなく外れ値をアラート対象にする
レイテンシをモニタリングするときは、SLO を定義し、平均または 50 パーセンタイルのレイテンシではなく、90 パーセンタイル、95 パーセンタイル、99 パーセンタイルのレイテンシのアラートを設定します(3 つのうちの 2 つを選択)。レイテンシの平均値または中央値が適切な値を使用すると、90 パーセンタイル以上で許容できない高い値が表示されないことがあり、ユーザー エクスペリエンスが大幅に低下する可能性があります。ウェブサーバーでのリクエスト / レスポンスのインタラクション、データ処理パイプラインでのバッチ完了、ストレージ サービスでの読み取り / 書き込みオペレーションなど、重要なオペレーションのレイテンシをモニタリングする場合は、この原則を使用して外れ値に関するアラートを適用する必要があります。