Last reviewed 2023-07-20 UTC
Google Cloud 架构框架中的本文档提供了用来创建提醒以帮助您运行可靠服务的操作原则。您拥有有关服务性能的信息越多,问题出现时您做出的决策就越明智。设计提醒以及早并准确检测到所有会影响用户的系统问题,并最大限度地减少假正例。
优化提醒延迟时间
在以下两点之间会保持平衡:太早发送的提醒会给运营团队带来压力,太晚发送的提醒会导致长时间服务中断。在监控系统通知用户问题之前调整提醒延迟时间,以最大限度地减少检测时间,同时最大化信号与噪声。使用错误预算使用率来获得最佳提醒配置。
针对表现(而非原因)触发提醒
根据对用户体验的直接影响触发提醒。不符合全局或每个客户的 SLO 则会产生直接影响。不针对故障的每个可能的根本原因发出提醒,尤其是当影响仅限于单个副本时。设计良好的分布式系统可以从单副本故障中顺利恢复。
针对离群值(而不是平均值)触发提醒
监控延迟时间时,请定义 SLO,并为第 90、95 或 99 百分位延迟时间(而不是平均或第 50 百分位延迟时间)设置提醒(三选二)。良好的平均值或延迟时间中位数值可以在第 90 百分位或更高级别隐藏不可接受的高值,以免导致非常糟糕的用户体验。因此,在监控任何关键操作(例如,与网络服务器的请求-响应交互、数据处理流水线中的批量完成或者对存储服务的读取或写入操作)的延迟时间时,您都应该应用此离群值提醒原则。