服务等级目标概览
服务等级目标 (SLO) 是 Google 服务监控工具包中的核心工具。SLO 可以为您提供有关服务整体运行状况的简明和低噪声信号。借助 Anthos Service Mesh,您可以为服务设置 SLO,并根据这些 SLO 监控您的服务并发出提醒。
要监控服务的运行状况,您需要了解该服务的哪些行为很重要,以及如何衡量和评估这些行为。服务等级指标 (SLI) 是对服务某些方面的量化衡量标准。典型的 SLI 有:
- 延迟时间:对请求返回响应所需的时间,通常以毫秒 (ms) 为单位。延迟时间通常显示为汇总值。也就是说,会收集某个时间段的原始数据并将其计算为百分位数。Anthos Service Mesh 在每个服务的指标页面上显示延迟时间图。延迟时间图会显示一段时间内的延迟时间,这有助于您确定服务的延迟时间阈值或上限。
- 可用性:服务成功响应的时间比例。这通常以成功响应次数占总响应次数的比率表示。指标页面上的错误率图可帮助您确定每项服务的可用性。
SLO 是 SLI 衡量的服务等级的目标值。SLO 可以表示为:SLI ≤ upper_bound
或 SLI ≥ lower_bound
。SLO 是在某个时间段内性能的可衡量目标。例如,您的某些服务可能具有如下要求:
- 在一个滚动的 30 天周期内,只有 5% 的请求的延迟时间超过 300 毫秒。
- 在一个日历周内测量的系统可用性达到 99%。
您可以在运行状况页面上根据服务的遥测数据设置和查看其 SLO。然后,您可以在 Cloud Monitoring 中创建提醒,以在服务未按预期运行时向您发出警告。