下载有关 SRE 的新白皮书,了解关键概念以及 Google Cloud 如何帮助您完成 SRE 之旅
跳转到

站点可靠性工程 (SRE)

SRE 是一种运行可靠生产系统的工作职能、思维模式和一组工程做法。Google Cloud 通过工具、专业服务和其他资源帮助您实现 SRE 原则。
  • Sabre
  • Lowe’s
  • adeo
  • Zebra
  • Optiva
  • Proctor & Gamble
  • TELUS
  • Ulta
  • JCB 徽标

优势

在速度和可靠性之间取得平衡

享受速度优势

从编写代码到在生产环境中运行服务,端到端自动化。使开发和运维保持一致以达成共同的目标,从而更快地实现目标。关联您喜欢的工具,包括突发事件管理,尽可能减少工作量。

利用成熟的 SRE 原则提高可靠性

充分利用 Google 制定的 SRE 原则,事实证明,它们能够大规模运行。借助 Google Cloud 的运维套件轻松实现 SRE 最佳实践,加速问题解决并提高可靠性。

我们可以帮助您实现 SRE 之旅

无论公司规模、行业如何,也无论您使用的是虚拟机、Kubernetes 还是无服务器,都能实现更出色的软件交付表现。从免费工具或付费产品中进行选择,快速开启 SRE 之旅。

主要特性

SRE 工具和资源,可让您的运营和 SRE 团队更好地运营

使用 SRE 原则监控服务运行状况

利用对服务监控的内置支持,监控服务的运行状况并与开发者合作提高更改速度。选择 SLI 的指标,设置 SLO,以及跟踪错误预算,以降低服务风险。使用功能强大的信息中心来聚合指标和日志(包括黄金信号),以降低 MTTR,并快速回答有关服务运行状况的问题。

开箱即用的集成功能,可帮助提高自动化水平、减少手动操作

利用我们内置的工具与您喜欢的工具集成,快速排查突发事件。安全地实施逐步发布和回滚更改。与 Cloud Build 的预构建集成可让您构建、测试工件并将其部署到 Google Kubernetes EngineApp EngineCloud FunctionsFirebaseCloud Run,作为 CI/CD 的一部分。

一个集成视图,可更快地解析

统一的日志、事件、指标和 SLO 视图。直接在 Google Kubernetes EngineCloud RunCompute EngineAnthos 的服务控制台中获取情境可观测性数据和其他运行时间。零设置即可收集指标、跟踪记录和日志。亚秒级提取延迟时间和 TB 级每秒提取速率确保您可以大规模地执行实时日志管理和分析。

向 Google Cloud SRE 专家寻求更多帮助

如果您在使用过程中需要更多实践帮助,还可以考虑使用 Google 咨询服务等其他服务。请联系您的销售人员,了解哪个选项适用于您的组织。了解我们的 CRE 团队和客户成功案例,了解 Google Cloud 工具和做法如何帮助其他公司在其组织中实施 SRE。

推动 SRE/开发者协作,实现“左移”可观测性

借助 OpenTelemetry (OT) 软件包和 Google Exporter,开发者可以将跟踪记录数据检测并导出到 Cloud Trace。我们全新的统一运维代理 (预览版)会收集指标和日志,还支持 OpenTelemetry 来捕获和传输指标。我们正在努力在我们的许多云产品中实现 OT 库作为开箱即用的功能。Cloud SQL Insights 就是这项工作的一个示例。


文档

了解如何使用这些资源在您的组织中实现 SRE

最佳实践
Google 站点可靠性工程

阅读 SRE 书籍,了解 SRE 的发言,并了解我们如何在 Google 学习 SRE。

Google Cloud 基础知识
创建 SLO

要监控服务,您需要至少一个服务等级目标 (SLO)。逐步了解如何在 Cloud Monitoring 中创建第一个 SLO。

教程
可靠性工程

了解如何在 Google Cloud 的运维套件中定义和保护您的 SLO,并提高在 Google Cloud 中运行的应用的可观测性。

教程
SRE:衡量和管理可靠性

本课程介绍了服务等级目标 (SLO) 理论,即描述和衡量服务所需可靠性的原则性方法。

教程
培养 Google SRE 文化

本课程介绍了 Google SRE 的关键做法,以及 IT 和业务主管在 SRE 组织采用方面取得成功的重要作用。

最新资讯

Google Cloud SRE 的新变化

订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。