站点可靠性工程 (SRE)

SRE 是一种运行可靠生产系统的工作职能、思维模式和一组工程做法。Google Cloud 通过工具、专业服务和其他资源帮助您实现 SRE 原则。

与我们联系与我们联系

视频

如何在 Google Cloud 上采用站点可靠性工程 (SRE)

01:59

优势

在速度和可靠性之间取得平衡

享受速度优势

从编写代码到在生产环境中运行服务，端到端自动化。使开发和运维保持一致以达成共同的目标，从而更快地实现目标。关联您喜欢的工具，包括突发事件管理，尽可能减少工作量。

利用成熟的 SRE 原则提高可靠性

充分利用 Google 制定的 SRE 原则，事实证明，它们能够大规模运行。借助 Google Cloud 的运维套件轻松实现 SRE 最佳实践，加速问题解决并提高可靠性。

我们可以帮助您实现 SRE 之旅

无论公司规模、行业如何，也无论您使用的是虚拟机、Kubernetes 还是无服务器，都能实现更出色的软件交付表现。从免费工具或付费产品中进行选择，快速开启 SRE 之旅。

主要特性

SRE 工具和资源，可让您的运营和 SRE 团队更好地运营

使用 SRE 原则监控服务运行状况

利用对服务监控的内置支持，监控服务的运行状况并与开发者合作提高更改速度。选择 SLI 的指标，设置 SLO，以及跟踪错误预算，以降低服务风险。使用功能强大的信息中心来聚合指标和日志（包括黄金信号），以降低 MTTR，并快速回答有关服务运行状况的问题。

开箱即用的集成功能，可帮助提高自动化水平、减少手动操作

利用我们内置的工具与您喜欢的工具集成，快速排查突发事件。安全地实施逐步发布和回滚更改。与 Cloud Build 的预构建集成可让您构建、测试工件并将其部署到 Google Kubernetes Engine、App Engine、Cloud Functions、Firebase 和 Cloud Run，作为 CI/CD 的一部分。

一个集成视图，可更快地解析

统一的日志、事件、指标和 SLO 视图。直接在 Google Kubernetes Engine、Cloud Run、Compute Engine、Anthos 的服务控制台中获取情境可观测性数据和其他运行时间。零设置即可收集指标、跟踪记录和日志。亚秒级提取延迟时间和 TB 级每秒提取速率确保您可以大规模地执行实时日志管理和分析。

向 Google Cloud SRE 专家寻求更多帮助

如果您在使用过程中需要更多实践帮助，还可以考虑使用 Google 咨询服务等其他服务。请联系您的销售人员，了解哪个选项适用于您的组织。了解我们的 CRE 团队和客户成功案例，了解 Google Cloud 工具和做法如何帮助其他公司在其组织中实施 SRE。

推动 SRE/开发者协作，实现“左移”可观测性

借助 OpenTelemetry (OT) 软件包和 Google Exporter，开发者可以将跟踪记录数据检测并导出到 Cloud Trace。我们全新的统一运维代理（预览版）会收集指标和日志，还支持 OpenTelemetry 来捕获和传输指标。我们正在努力在我们的许多云产品中实现 OT 库作为开箱即用的功能。Cloud SQL Insights 就是这项工作的一个示例。