このページは Cloud Translation API によって翻訳されました。

バーンレートに関するアラート

サービスレベル目標（SLO）にアラートポリシーを作成して、SLO に違反する可能性があるかどうかを知らせることができます。モニタリングする SLO を選択してから、その SLO をモニタリングするためのアラートポリシーを構成します。条件は通常、違反を構成するしきい値と違反が許可される期間を選択することで表します。許容期間を超えてしきい値を超過した場合、アラートポリシーがトリガーされます。

このページでは、エラーバジェットのバーンレートに関するアラートについて説明します。ただし、アラートポリシーの詳細は説明しません。条件と通知チャネルに関する基本的なコンセプトをすでに理解していることを前提としています。

アラートポリシーの概要と作成方法については、アラートポリシーの使用をご覧ください。

SLO ベースのアラートポリシーを作成する具体的な手順については、以下をご覧ください。

Google Cloud コンソールを使用してアラートポリシーを作成する。
Cloud Monitoring API を使用してアラートポリシーを作成する。

エラーバジェットのバーンレート

コンプライアンス期間のエラーバジェットは、（1 - SLO 目標）×（コンプライアンス期間の有効イベント）です。SLO 目標が 95% の場合、SLI で測定されたイベントの 5% が失敗するまでは SLO の目標が達成と認められます。

バーンレートは、コンプライアンス期間中にエラーバジェットを消費する速度を示します。バーンレートは、対象となるイベントの数と、コンプライアンス期間中に受信したエラーイベントの数によって異なります。たとえば、エラーイベントが発生していない場合、エラーバジェットは消費されず、バーンレートはゼロになります。サービスの最大ダウンタイムを計算する方法の例については、バーンレートに関するアラートをご覧ください。

バーンレート指標は正規化されています。バーンレートが 1 より大きい場合、測定されたエラー率が今後のコンプライアンス期間でも維持されると、その期間、サービスは SLO から逸脱した状態になります。詳細については、エラーバジェットをご覧ください。

バーンレート指標は、時系列セレクタ select_slo_burn_rate によって取得されます。バーンレートのアラートポリシーは、アラートのコンプライアンス期間中の測定により、定義済みのしきい値よりも速くエラーバジェットが消費された場合に通知されます。時系列セレクタは他にもあります。SLO データの取得をご覧ください。他の時系列セレクタを使用するアラートポリシーは作成できますが、Cloud Monitoring API を使用して作成する必要があります。

SLO でのアラートポリシーの作成の概要

SLO のアラートポリシーの作成方法は、指標のアラートポリシーの作成方法と似ています。このセクションでは、アラートポリシー作成の一般的な手順について確認します。

SLO のアラートポリシーを作成する手順は次のとおりです。

アラートポリシーのベースとなる SLO を特定します。
選択した SLO を使用するアラートポリシーの条件を作成します。この条件では、SLO データの取得に使用する時系列セレクタを指定します。また、SLO がいつポリシーを遵守しない状態になったかを判定する期間、しきい値、比較も指定します。

たとえば、時系列セレクタをバーンレートに使用すると、取得したデータに選択した SLO のエラーバジェットのバーンレートが反映されます。

この条件でも、アラートをトリガーする前に SLO のしきい値と違反の存続期間を指定することになります。たとえば、アラートをトリガーする前に一定期間、バーンレートを一定の割合以上にするとします。some amount over の値は条件のしきい値、some period の値は条件の期間です。
アラートポリシーで使用する通知チャネルを特定または作成します。
アラートポリシーの原因をユーザーに説明するドキュメントを提供します。

アラートポリシーの概要と作成方法については、アラートポリシーの使用をご覧ください。

アラートポリシーとルックバック期間

アラートポリシーの SLO データを取得する場合は、SLO の識別子とルックバック期間を指定します。ルックバック期間は、過去のどの時点までのデータを取得できるかを示します。重要なのは、ルックバック期間が SLO のパフォーマンスとエラーバジェットを計算するためのコンプライアンス期間としても使用されることです。

現時点では、24 時間を超えるコンプライアンス期間を適用して、SLO のエラーバジェットの消費率に基づきアラートを発信することはできません。多くの場合、サービス停止を検出して短期運用でこれに対応するためには、長期（28 日～30 日など）のコンプライアンス期間を 24 時間未満の 1 期間に近づければ十分です。

コンプライアンス期間を短くすると問題を迅速に検出できますが、1 日のなかのトラフィックとエラーレートの大きな変化により、トラフィックの少ない期間にアラートが発生しやすくなります。1 をかなり超えるバーンレートのしきい値を使用して、これらの時間帯にアラートの感度を下げることを検討してください。

エラーバジェットのアラートの種類

アラートポリシーを設定してエラーバジェットをモニタリングする場合は、2 つの関連するアラートポリシーを設定することをおすすめします。

急な消費量の急激な変化を警告する急速バーンアラートは、修正をしないと間もなくしてエラーバジェットを使い果たしてしまいます。「このレートでは、1 か月のエラーバジェットが 2 日でなくなってしまう！」という状態です。

急速バーンアラートでルックバック期間をより短く設定すると、短い時間であっても、良好でない状態が発生し、継続した場合、直ちに通知が送信されます。本当に良好な状態でない場合、通知を長い時間控える必要はありません。

ここで通知する消費率のしきい値は、ルックバック期間の基準値よりもかなり高くなります。
キーポイント: 急速バーンレートしきい値のアラートポリシーについてまず目安となるのは、基準値の約 10 倍の短いルックバック期間（1～2 時間）です。
低速バーンアラートは、アラートを発生させないと、コンプライアンス期間の終了前にエラーバジェットを使い切る場合に、消費率についてのアラートを発生させます。低速バーン状態は、急速バーン状態よりも緊急性が低くなります。「今月の予定は少し上回っているが、今のところ大きな問題はない」という状態です。

低速バーンアラートでは、より短期間の消費量のばらつきをならすために、より長いルックバック期間を適用します。

低速バーンアラートでアラートを発するしきい値は、ルックバック期間における理想的なパフォーマンスよりは大きくなりますが、大幅に上回るわけではありません。ルックバック期間が短く、しきい値が高いポリシーは、長期的な消費量が横ばいになってもアラートが多量に発生してしまう可能性があります。しかし、消費量が長期的に高い値を維持した場合、最終的にすべてのエラーバジェットが消費されてしまいます。
キーポイント: 低速バーンしきい値についてまず目安となるのは、基準値の 2 倍の 24 時間のルックバック期間です。

次のステップ

Google Cloud コンソールを使用して SLO ベースのアラートポリシーを作成するには、アラートポリシーの作成（Google Cloud コンソール）をご覧ください。
Monitoring API を使用して SLO ベースのアラートポリシーを作成するには、アラートポリシーの作成（API）をご覧ください。

バーンレートに関するアラート

エラー バジェットのバーンレート

SLO でのアラート ポリシーの作成の概要

アラート ポリシーとルックバック期間

エラー バジェットのアラートの種類

次のステップ

エラーバジェットのバーンレート

SLO でのアラートポリシーの作成の概要

アラートポリシーとルックバック期間

エラーバジェットのアラートの種類