站点可靠性工程 (SRE)
优势
在速度和可靠性之间取得平衡
享受速度优势
从编写代码到在生产环境中运行服务,端到端自动化。使开发和运维保持一致以达成共同的目标,从而更快地实现目标。关联您喜欢的工具,包括突发事件管理,尽可能减少工作量。
利用成熟的 SRE 原则提高可靠性
充分利用 Google 制定的 SRE 原则,事实证明,它们能够大规模运行。借助 Google Cloud 的运维套件轻松实现 SRE 最佳实践,加速问题解决并提高可靠性。
我们可以帮助您实现 SRE 之旅
无论公司规模、行业如何,也无论您使用的是虚拟机、Kubernetes 还是无服务器,都能实现更出色的软件交付表现。从免费工具或付费产品中进行选择,快速开启 SRE 之旅。
主要特性
SRE 工具和资源,可让您的运营和 SRE 团队更好地运营
开箱即用的集成功能,可帮助提高自动化水平、减少手动操作
利用我们内置的工具与您喜欢的工具集成,快速排查突发事件。安全地实施逐步发布和回滚更改。与 Cloud Build 的预构建集成可让您构建、测试工件并将其部署到 Google Kubernetes Engine、App Engine、Cloud Functions、Firebase 和 Cloud Run,作为 CI/CD 的一部分。
一个集成视图,可更快地解析
统一的日志、事件、指标和 SLO 视图。直接在 Google Kubernetes Engine、Cloud Run、Compute Engine、Anthos 的服务控制台中获取情境可观测性数据和其他运行时间。零设置即可收集指标、跟踪记录和日志。亚秒级提取延迟时间和 TB 级每秒提取速率确保您可以大规模地执行实时日志管理和分析。
向 Google Cloud SRE 专家寻求更多帮助
如果您在使用过程中需要更多实践帮助,还可以考虑使用 Google 咨询服务等其他服务。请联系您的销售人员,了解哪个选项适用于您的组织。了解我们的 CRE 团队和客户成功案例,了解 Google Cloud 工具和做法如何帮助其他公司在其组织中实施 SRE。
推动 SRE/开发者协作,实现“左移”可观测性
借助 OpenTelemetry (OT) 软件包和 Google Exporter,开发者可以将跟踪记录数据检测并导出到 Cloud Trace。我们全新的统一运维代理 (预览版)会收集指标和日志,还支持 OpenTelemetry 来捕获和传输指标。我们正在努力在我们的许多云产品中实现 OT 库作为开箱即用的功能。Cloud SQL Insights 就是这项工作的一个示例。
相关服务
SRE 集成和产品
在 Google Cloud 上构建和部署新的云应用、存储工件,并监控应用的安全性和可靠性。
文档
了解如何使用这些资源在您的组织中实现 SRE
Google 站点可靠性工程
阅读 SRE 书籍,了解 SRE 的发言,并了解我们如何在 Google 学习 SRE。
创建 SLO
要监控服务,您需要至少一个服务等级目标 (SLO)。逐步了解如何在 Cloud Monitoring 中创建第一个 SLO。
实操实验:排查 GKE for SRE 上的工作负载问题
了解如何浏览 GKE 的资源页面、使用 GKE 信息中心、创建基于日志的指标、创建 SLO 以及定义提醒以向 SRE 员工通知突发事件。
可靠性工程
了解如何在 Google Cloud 的运维套件中定义和保护您的 SLO,并提高在 Google Cloud 中运行的应用的可观测性。
SRE:衡量和管理可靠性
本课程介绍了服务等级目标 (SLO) 理论,即描述和衡量服务所需可靠性的原则性方法。
培养 Google SRE 文化
本课程介绍了 Google SRE 的关键做法,以及 IT 和业务主管在 SRE 组织采用方面取得成功的重要作用。
Google Cloud SRE 的新变化
订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。