SLO のアラート ポリシーの作成
このページでは、Anthos Service Mesh で作成するサービスレベル目標(SLO)のアラート ポリシーを Cloud Monitoring で作成する方法について説明します。
SLO の概要については、サービスレベル目標の概要をご覧ください。
サービスが SLO に違反したときに、Cloud Monitoring がアラートをトリガーできます。アラート ポリシーは、エラー バジェットの消費量に基づいて作成できます。エラー バジェットのすべてのアラートには同じ基本条件があります。コンプライアンス期間に指定された割合のエラー バジェットがルックバック期間(たとえば、過去 60 分)で消費されます。アラート ポリシーを作成すると、Anthos Service Mesh は SLO の設定に基づいてアラート条件を自動的に設定します。ルックバック期間と消費率を指定します。
ルックバック期間と消費率に対して設定する値は、試行錯誤を繰り返して設定する必要があります。デフォルトのルックバック期間(60 分)から始めることもできます。消費率を調べるには、サービスの動作をモニタリングして、(コンプライアンス期間中の)過去 60 分ンに合計のエラー バジェットが消費された割合を確認します。ルックバック期間内に許容範囲を超えてエラー バジェットが消費されないように、また、アラートが不必要に抑制されないように消費率を設定する必要があります。
たとえば、95% < 300ms Latency in Calendar Week
という名前の SLO を作成したとします。
この SLO では、レイテンシが 300 ミリ秒を超えるリクエスト数を 1 週間のリクエストの合計数の 5% 以下にする必要があります。5% 以上になると、合計エラー バジェットを超えます。ルックバック期間を 1 時間に設定した場合、各ルックバック期間はコンプライアンス期間の 1/168
になります(1 週間は 168 時間)。その週の合計エラー バジェットを超えない時間あたりの消費率は、5%
÷ 168
≈ 0.03%
で計算します。
Service のレイテンシは負荷やその他の条件によって変動することがあるため、消費率として 0.03% を設定すると、不要なアラートがトリガーされることがあります。その 2 倍の値(0.06%)から始めて Service をモニタリングし、値を調整します。
始める前に
いずれか 1 つのサービスの SLO を作成します。
SLO でのアラート ポリシーの作成
サービスの [健全性] タブに移動します。
Google Cloud コンソールで、[Anthos Service Mesh] に移動します。
メニューバーのプルダウン リストから Google Cloud プロジェクトを選択します。
アラート ポリシーを作成するサービスをクリックします。
左側のナビゲーション バーで [健全性] をクリックします。
アラート ポリシーを作成する SLO をクリックします。
右側の [SLO の現在のステータス] セクションで [アラート ポリシーを作成する] リンクをクリックします。
[条件の追加] ダイアログが表示されます。Anthos Service Mesh では、SLO の設定に基づいて、SLO バーンレート条件が自動的に入力されます。SLO バーンレート条件を構成して、SLO のエラー バジェットが急激に減ったときにアラートを受け取れるようにします。SLO がエラー バジェットから外れる前にアラートを確実に受け取れるようにします。
条件を構成します。
- 条件に名前を付けるには、[推奨タイトル] リンクをクリックして、SLO に基づく名前を使用するか、条件の名前を入力します。
- [ターゲット] セクションで、[ルックバック期間] フィールドにルックバック期間を入力するか、デフォルト値を使用します。
- [構成] セクションで、[しきい値] フィールドに消費率を入力します。
- [保存] をクリックします。[新しいアラート ポリシーの作成] ウィンドウが表示されます。
アラート ポリシーを構成します。
- ポリシー名を入力します。
- 条件は自動的に入力されますが、必要に応じて別の条件を追加できます。
- アラート ポリシーに設定されている条件が 1 つのみである場合は、[Policy triggers] フィールドをデフォルト値の [Any condition is met] のままにしておきます。
- 必要に応じて、[通知] と [ドキュメント] のセクションを構成します。詳細については、アラート ポリシーの管理をご覧ください。
- [保存] をクリックします。[ポリシーの詳細] ページが表示されます。
- Anthos Service Mesh ダッシュボードに戻るには、[ナビゲーション メニュー] dehaze をクリックして、[Anthos ] > [サービス] に移動します。
次のステップ
Google のサイト信頼性エンジニアリングからのアラートの詳細について確認する。