バックアップ プランの RPO リスク ステータスに関するアラートを設定する


このページでは、ログ エクスプローラから Backup for GKE が出力するログイベントに基づいて、バックアップ プランの RPO リスクレベルとリスクの理由に関するアラートを設定する方法について説明します。

障害復旧または事業継続計画のコンテキストにおいて、目標復旧時点(RPO)は、データを復元する必要がある最新の時点を意味します。これは、インフラストラクチャの障害によってデータが失われる最長期間を指定するもので、障害発生前の書き込みアクティビティが失われる時間として表されます。

[RPO リスクレベル] 列には、バックアップ プランの現在の RPO リスクレベルが表示されます。[リスクの理由] フィールドには、バックアップ プランが特定のリスクレベルにある理由の詳細が表示されます。

RPO リスクレベルとリスクの理由はいずれも、1 対多の関係になります。たとえば、RPO リスクレベルが 4 になる理由は複数存在します。RPO リスクレベルと対応する理由の完全なリストについては、次の表をご覧ください。

RPO リスクレベルとリスクの理由の対応関係

RPO リスクレベル RPO リスクの理由
1 この BackupPlan でリスクは検出されていません。
2 この BackupPlan で最近のバックアップが失敗しています。
2 トレーニング フェーズであり、バックアップが 4 回以上成功すると、リスクレベルが使用可能になります。
2 RPO 構成が定義されていません。保護を強化するために、RPO スケジュールに切り替えてください。
2 スケジュールが定義されていません。保護を強化するために、RPO スケジュールにオプトインしてください。
3 最近のバックアップに時間がかかっています。この傾向が続くと、RPO が満たされなくなるリスクがあります。
3 直前のバックアップの作成が失敗しました。
3 直前のバックアップの実行が失敗しました。
3 スケジュールが一時停止されています。
3 この BackupPlan で最近のバックアップが失敗し、スケジュールが一時停止されています。
3 トレーニング フェーズですが、この BackupPlan で最近のバックアップが失敗しています。
3 トレーニング フェーズですが、直前のバックアップの作成が失敗しました。
3 トレーニング フェーズですが、直前のバックアップの実行が失敗しました。
3 RPO 構成が定義されておらず、この BackupPlan で最近のバックアップが失敗しています。エラーを解決したら、RPO スケジュールに切り替えてください。
3 スケジュールが定義されておらず、最近のバックアップが失敗しています。保護を強化するために、RPO スケジュールにオプトインしてください。
4 最近のバックアップに時間がかかっており、スケジュールが一時停止されています。スケジュールを再開した後もこの傾向が続くと、RPO が満たされなくなるリスクがあります。
4 直前のバックアップの作成が失敗し、スケジュールが一時停止されています。
4 直前のバックアップの実行が失敗し、スケジュールが一時停止されています。
4 トレーニング フェーズですが、スケジュールが一時停止されています。トレーニングを完了できるよう、スケジュールを再開してください。
4 トレーニング フェーズですが、この BackupPlan で最近のバックアップが失敗し、スケジュールが一時停止されています。
4 トレーニング フェーズですが、直前のバックアップの作成が失敗し、スケジュールが一時停止されています。
4 トレーニング フェーズですが、直前のバックアップの実行が失敗し、スケジュールが一時停止されています。
4 RPO 構成が定義されておらず、直前のバックアップの作成が失敗しました。エラーを解決したら、RPO スケジュールに切り替えてください。
4 RPO 構成が定義されておらず、直前のバックアップの実行が失敗しました。エラーを解決したら、RPO スケジュールに切り替えてください。
4 RPO 構成が定義されておらず、cron スケジュールが一時停止されています。保護を強化するために、RPO スケジュールに切り替えてください。
4 RPO 構成が定義されておらず、最近のバックアップの失敗により cron スケジュールが一時停止されています。エラーを解決したら、RPO スケジュールに切り替えてください。
4 RPO 構成が定義されておらず、直前のバックアップの作成が失敗したため、cron スケジュールが一時停止されています。エラーを解決したら、RPO スケジュールに切り替えてください。
4 RPO 構成が定義されておらず、直前のバックアップの実行が失敗したため、cron スケジュールが一時停止されています。エラーを解決したら、RPO スケジュールに切り替えてください。
4 スケジュールが定義されておらず、直前のバックアップの実行が失敗しました。保護を強化するために、RPO スケジュールにオプトインしてください。
5 この BackupPlan は RPO に違反しています。この BackupPlan で、必要に応じてバックアップ エラーを解決するか、目標 RPO と除外時間枠を更新するか、バックアップのスコープを縮小してください。
5 この BackupPlan は RPO に違反しており、スケジュールが一時停止されています。この BackupPlan で、必要に応じてバックアップ エラーを解決するか、目標 RPO と除外時間枠を更新するか、バックアップのスコープを縮小してください。

始める前に

アラート ポリシーを設定する前に、適切な通知チャンネルがあることを確認してください。

アラートを作成する

一般的なログベースのアラート ポリシーの作成について詳しくは、ログベースのアラート ポリシーを構成するをご覧ください。また、バックアップ プランにおける RPO リスクレベルまたは RPO リスクの理由の変更専用のアラート ポリシーを作成するには、次の操作を行います。

  1. [ログ エクスプローラ] ページに移動します。[ログ エクスプローラ] に移動

  2. [クエリ] ペインに次のフィルタ条件を入力します。

    logName="projects/PROJECT_ID/logs/gkebackup.googleapis.com%2Fbackup_plan_change"
    resource.type="gkebackup.googleapis.com/BackupPlan"
    resource.labels.backup_plan_id="BACKUP_PLAN"
    resource.labels.location="LOCATION"
    jsonPayload.backupPlanMetadata.rpoRiskLevel>="VALUE"
    jsonPayload.backupPlanMetadata.rpoRiskReason="REASON"
    

    次のように置き換えます。

    • PROJECT_ID: 実際の Google Cloud プロジェクト ID。
    • BACKUP_PLAN: アラートを生成するバックアップ プランの名前。
    • LOCATION: アラートを生成するバックアップ プランのコンピューティング リージョン。例: us-central1.
    • VALUE: アラートを受け取るバックアップ プランの RPO リスクレベルの値。有効な値は [1,5] の範囲内です。リスクレベル >= 4 に対してアラートを設定することをおすすめします。
    • REASON: (省略可)から適切なリスクの理由を選択します。
  3. クエリを検証するため、[クエリを実行] をクリックします。

  4. [クエリ結果] ツールバーで [アクション] メニューを開き、[ログアラートの作成] を選択します。

  5. [アラートの詳細] ペインの [アラート ポリシー名] フィールドにアラート ポリシーの名前を入力します。例: Alert for RPO risk level of backup plan

  6. [Policy severity level] メニューからオプションを選択します。インシデントや通知には重大度が表示されます。重大度を [重大] に設定することをおすすめします。

  7. アラート ポリシーに関する説明を入力します。通知の受信者が問題を診断する際に有用な情報を含めることもできます。このフィールドの内容のフォーマットと調整の詳細については、ドキュメント テンプレートでマークダウンと変数を使用するをご覧ください。

  8. [次へ] をクリックします。

  9. [通知の間隔] と [インシデントの自動クローズ期間] を設定します。通知の間隔は 1 日、自動クローズ期間は 7 日に設定することをおすすめします。

  10. [次へ] をクリックします。

  11. アラート ポリシーの通知チャンネルを 1 つ以上選択します。

  12. [保存] をクリックします。

    ポリシーを保存すると、バックアップ プランがフィルタに一致した場合に、通知チャンネルにアラートが届きます。