您可以针对服务等级目标 (SLO) 创建提醒政策,以让您了解自己是否面临违反 SLO 的危险。选择要监控的 SLO,然后配置提醒政策以监控该 SLO。通常情况下,该条件通过选择构成违规的阈值以及允许违规的时间段来表示。如果阈值超过允许的时间段,则会触发提醒政策。
本页介绍错误预算消耗率提醒。其中未详细介绍提醒政策;并假定您已经了解条件和通知渠道的基本概念。
如需了解有关提醒政策以及如何创建提醒政策的常规信息,请参阅使用提醒政策。
如需了解创建基于 SLO 的提醒政策的具体步骤,请参阅以下内容:
错误预算的消耗率
您在合规期的错误预算为(1− SLO 目标)×(合规期中符合条件的事件)。如果您的 SLO 目标是 95%,则在通过 SLI 衡量的事件中,有 5% 的事件会在 SLO 目标实现之前失败。
资金消耗率反映合规期内的错误预算的耗用速度。资金消耗率取决于符合条件的事件数量以及合规期内收到的错误事件数量。例如,如果没有发生错误事件,则表示错误预算未被耗用,资金消耗率为零。如需查看示例,了解如何通过假设所有请求都失败来计算服务的最长停机时间,请参阅 SLO 资金消耗率。
资金消耗率指标经过归一化处理,因此资金消耗率大于 1 表示如果测量的错误率在任何未来的合规期内保持不变,则服务在该合规期将达不到 SLO。如需了解详情,请参阅错误预算。
消耗率指标由时间序列选择器 select_slo_burn_rate
检索。当您的错误预算的使用速度超过您定义的阈值(在整个提醒的合规期内衡量)时,消耗率提醒政策会通知您。如需详细了解其他时间序列选择器,请参阅检索 SLO 数据。您可以创建使用某些其他时间序列选择器的提醒策略,但您必须使用 Cloud Monitoring API 来创建提醒策略。
在 SLO 上创建提醒政策的概览
为 SLO 创建提醒政策与为指标创建提醒政策类似。本部分评价创建提醒政策的一般步骤。
要为 SLO 创建提醒政策,请按以下步骤操作:
确定作为提醒政策创建基础的 SLO。
为使用所选 SLO 的提醒政策构建条件。 在条件中,您将指定用于检索 SLO 数据的时间序列选择器。您还需要指定时长、阈值以及确定 SLO 何时不合规的比较。
例如,如果您使用时间序列选择器检索消耗率,则检索的数据将反映所选 SLO 的错误预算的消耗率。
在该条件下,您还可以在触发提醒之前指定 SLO 的违规阈值和持续时间。例如,您希望在触发警报之前的一段时间内,消耗率高于期望的速率。在这种情况下,“高出部分”的值是条件的阈值,“一段时间”的值是条件的持续时间。
确定或创建要在提醒政策中使用的通知渠道。
提供向用户说明触发提醒政策原因的文档
如需了解有关提醒政策以及如何创建提醒政策的常规信息,请参阅使用提醒政策。
提醒政策和回溯期
为提醒政策检索 SLO 数据时,可以指定 SLO 标识符和回溯期。回溯期决定了检索数据的时间要追溯至什么时候。至关重要的是,回溯期还用作计算 SLO 性能和错误预算的合规期。
目前无法根据合规期超过 24 小时来提醒 SLO 的错误预算消耗率。在许多情况下,如果您的长期(例如 28 天或 30 天)合规期为少于 24 小时,则足以检测出服务中断情况,并促使他们对服务进行短期运维响应。
合规期越短,问题的检测速度就越快,但请注意,在一天中流量和错误率的大幅变化可能会在低流量时间段内出现过于敏感的提醒。您可以考虑使用明显高于 1 的消耗率阈值,以降低提醒敏感度。
错误预算提醒的类型
在设置提醒政策以监控错误预算时,建议您设置两项相关的提醒政策:
快速消耗提醒,用于提醒您突发的重大消耗量变化,如果不纠正,很快就会用尽错误预算。“按照这个速度,我们将在两天后用掉整个月的错误预算!(At this rate, we'll burn through the whole month'serror budget in two days!)”
对于快速消耗提醒,请使用较短的回溯期,这样一来,如果某个潜在的灾难性状况出现并持续存在(即使这种状况短暂存在过),您就可以快速收到通知。如果确实是灾难性状况,您肯定想尽快注意到它。
您在此处设置的消耗率阈值提醒远远高于回溯期的理想基准值。
慢速消耗提醒,用于提醒消耗率,如果消耗率未出现变动,则会在合规期结束前耗尽错误预算。这种情况的紧急程度不如快速消耗。“我们现在略微超出了本月的预期目标,但目前还没有什么大麻烦。(We are slightly exceeding where we'd like to be at this point in the month, but we aren't in big trouble yet.)”
对于慢速消耗提醒,请使用更长的回溯期来消除短时消耗的变化。
慢速消耗提醒中的阈值提醒高于回溯期的理想效果,但无显著提高。即使消耗量长期趋于平稳,则基于较短回溯期(具有高阈值)的政策可能会生成过多提醒。但如果消耗量长时间保持稍高的水平,最终会消耗完所有错误预算。
后续步骤
- 如需使用 Google Cloud 控制台创建基于 SLO 的提醒政策,请参阅创建提醒政策(Google Cloud 控制台)。
- 如需使用 Monitoring API 创建基于 SLO 的提醒政策,请参阅创建提醒政策 (API)。