Last reviewed 2024-10-31 UTC
Google Cloud 架构框架中的卓越运营支柱提供了有关如何在 Google Cloud上高效运行工作负载的建议。云端卓越运营涉及设计、实现和管理可提供价值、性能、安全性和可靠性的云解决方案。本支柱中的建议可帮助您不断改进和调整工作负载,以满足云端不断变化的需求。
“运营卓越”支柱与以下受众群体相关:
- 经理和领导者:该框架可帮助您在云端建立和维持卓越的运营表现,并确保云投资能够创造价值并支持业务目标。
- 云运维团队:有关管理突发事件和问题、规划容量、优化性能和管理变更的指南。
- 站点可靠性工程师 (SRE):帮助您实现高服务可靠性的最佳实践,包括监控、突发事件响应和自动化。
- 云架构师和工程师:设计和实现阶段的运营要求和最佳实践,有助于确保解决方案的设计可提高运营效率和可伸缩性。
- DevOps 团队:有关自动化、CI/CD 流水线和更改管理的指南,有助于更快、更可靠地交付软件。
为了实现卓越运营,您应采用自动化、编排和数据驱动型分析。Automation 有助于消除重复劳动。它还可以简化重复性任务并为其构建防护栏。编排有助于协调复杂流程。以数据为依据的数据分析有助于您做出循证决策。通过采用这些做法,您可以优化云端运维、降低费用、提高服务可用性并增强安全性。
云端卓越运营不仅仅是云运营方面的技术精通。这包括鼓励持续学习和实验的文化转变。必须赋予团队创新、迭代和采用增长思维的权力。卓越运营文化有助于营造协作环境,鼓励个人分享想法、质疑假设并推动改进。
如需了解专门针对 AI 和机器学习工作负载的卓越运营原则和建议,请参阅架构框架中的 AI 和机器学习视角:卓越运营。
核心原则
架构框架卓越运营支柱中的建议对应于以下核心原则:
- 使用 CloudOps 确保运营准备情况和性能:通过定义服务等级目标 (SLO) 以及执行全面的监控、性能测试和容量规划,确保云解决方案满足运营和性能要求。
- 管理突发事件和问题:通过全面的可观察性、明确的突发事件响应流程、彻底的回顾和预防措施,最大限度地减少云突发事件的影响并防止其再次发生。
- 管理和优化云资源:通过合理配置、自动扩缩等策略以及使用有效的费用监控工具,优化和管理云资源。
- 自动执行更改并进行管理:自动执行流程、简化变更管理,并减轻手动操作的负担。
- 不断改进和创新:着重于持续增强产品功能并推出新解决方案,以保持竞争力。
贡献者
作者:
- Ryan Cox | 首席架构师
- Hadrian Knotz | 企业架构师
其他贡献者:
- Daniel Lees | 云安全架构师
- Filipe Gracio,博士 | 客户工程师
- Gary Harmson | 客户工程师
- Jose Andrade | 企业基础架构客户工程师
- Kumar Dhanagopal | 跨产品解决方案开发者
- Nicolas Pintaux | 客户工程师,应用现代化改造专家
- Radhika Kanakam | Cloud GTM 高级项目经理
- Zach Seils | 网络专家
- Wade Holmes | 全球解决方案总监