Stackdriver 透明服务等级指标 (SLI)

借助这些指标,您可以监控 Google Cloud 服务及其对工作负载的影响。

stackdriver-sre-hero-banner

打造现代化的数据驱动型 IT 运营环境

如今,大多数 IT 运营团队都以追求全面的指标驱动型方法为基本目标。 很多企业开始以服务可用性和性能为依据来衡量 IT 运营情况。但对于依赖云服务的 IT 团队而言,想要获得关于外部云提供商服务的可靠数据并非易事。如果出现问题,问题到底出在什么地方?是您的堆栈还是服务提供商?您可以借助透明 SLI 监控 Google Cloud 服务及其对工作负载的影响,从而全面了解情况。

measure-all-the-things

全面的指标测量

为了帮助 IT 团队了解所有服务组件的性能,Google 为 130 多项 Google Cloud 服务提供了详细的 API 级指标。这些指标反映了应用向每项 Google 服务发出的请求的错误计数和延迟情况。您可以由此了解应用与其所依赖的服务之间的相关性和负面影响,加快分析根本原因和解决问题的速度。

real-transparency

实现真正的透明

SLI 远远超越了传统的“服务运行状况”概念。通过 SLI,您可以了解各项服务之间的具体互动情况,并将这些互动信息与环境数据关联起来。如此一来,您便可通过各种属性(例如服务的位置、调用服务的应用的凭据、版本和响应代码)交叉分析各服务指标,以了解它们之间的关系以及确定原因和影响。

透明 SLI 的实际运用

  • 如果一个用户对某项服务的所有调用均失败,而其他任何用户都未出现这种状况,这表明问题极可能出在该帐号上,您可轻松地自行予以解决。
  • 如果您在对应用进行问题排查时发现,应用性能下降与关键 GCP 服务的延迟持续增加之间存在关联,这表明您应该与 Google 联系并寻求帮助。
  • 如果 GCP 服务报告的延迟状况看起来没问题,并且与之前相比没有什么变化,但您的应用内指标报告调用此服务的延迟异常高,这表明可能出现了某种网络问题。请致电您的网络提供商(某些情况下需要联系 Google)以启动调试流程。

我们的透明性承诺

Google Cloud 致力于分享与我们服务有关的详细性能信息。这些信息类似于 Google SRE 为确保我们的服务正常运营而采用的数据。借助此类共享数据,您可以轻松地监控我们服务的运营情况;这样当我们协同处理一张服务工单时,所有人都可全面掌握相关情况。我们相信,透明 SLI 必将改善您的技术支持体验,并提升您对云计算的信心。

Google Cloud

开始使用

要开始收集和探索透明服务指标,请转至 Stackdriver Metrics Explorer 并选择“Consumed API”作为资源类型。系统将会列出一系列指标,您可根据自己在应用中使用的产品和服务为这些指标绘制图表。随后,您可以选择对您的环境最有意义的指标,并可通过指定要监控的服务、方法、位置、凭据或错误代码来缩小显示的数据范围。

在确定对您的应用最重要的指标之后,您应该创建自定义信息中心,以便利用我们的服务为您的关键指标绘制图表,继而根据由此生成的一站式视图辨别问题的一般原因。最后,在为 Google 服务的流量处理行为以及应用的容错能力这两方面确定良好的长期基准后,您可以考虑设置提醒,以便及时发现偏离长期行为的情况。

开始使用