Google Cloud 架构良好的框架中的卓越运营支柱提供了有关如何在 Google Cloud上高效运行工作负载的建议。云端卓越运营涉及设计、实现和管理可提供价值、性能、安全性和可靠性的云解决方案。本支柱中的建议可帮助您不断改进和调整工作负载,以满足云端不断变化的需求。
“运营卓越”支柱与以下受众群体相关:
- 经理和领导者:该框架可帮助您在云端建立和维持卓越的运营表现,并确保云投资能够创造价值并支持业务目标。
- 云运维团队:有关管理突发事件和问题、规划容量、优化性能和管理变更的指南。
- 站点可靠性工程师 (SRE):帮助您实现高服务可靠性的最佳实践,包括监控、突发事件响应和自动化。
- 云架构师和工程师:设计和实现阶段的运营要求和最佳实践,有助于确保解决方案的设计可提高运营效率并实现可扩缩性。
- DevOps 团队:有关自动化、CI/CD 流水线和更改管理的指南,有助于更快、更可靠地交付软件。
为了实现卓越运营,您应采用自动化、编排和数据驱动型分析。自动化有助于消除重复劳动。它还可以简化重复性任务并为其构建防护栏。编排有助于协调复杂流程。以数据为依据的分析有助于您做出循证决策。通过这些做法,您可以优化云端运维、降低费用、提高服务可用性并增强安全性。
云端卓越运营不仅仅是云运营方面的技术精通。这包括鼓励持续学习和实验的文化转变。必须赋予团队创新、迭代和采用增长思维的权力。卓越运营文化有助于营造协作环境,鼓励个人分享想法、质疑假设并推动改进。
如需了解针对 AI 和机器学习工作负载的卓越运营原则和建议,请参阅良好架构框架中的 AI 和机器学习视角:卓越运营。
核心原则
良好架构框架的卓越运营支柱中的建议对应于以下核心原则:
- 使用 CloudOps 确保运营准备情况和性能:通过定义服务等级目标 (SLO) 以及执行全面的监控、性能测试和容量规划,确保云解决方案满足运营和性能要求。
- 管理突发事件和问题:通过全面的可观察性、明确的突发事件响应流程、彻底的回顾和预防措施,最大限度地减少云突发事件的影响并防止其再次发生。
- 管理和优化云资源:通过合理配置、自动扩缩等策略以及使用有效的费用监控工具,优化和管理云资源。
- 自动执行和管理更改:自动执行流程、简化更改管理,并减轻手动操作的负担。
- 不断改进和创新:着重于持续增强产品功能并推出新解决方案,以保持竞争力。
贡献者
作者:
- Ryan Cox | 首席架构师
- Hadrian Knotz | 企业架构师
其他贡献者:
- Daniel Lees | 云安全架构师
- Filipe Gracio,博士 | 客户工程师
- Gary Harmson | 客户工程师
- Jose Andrade | 企业基础架构客户工程师
- Kumar Dhanagopal | 跨产品解决方案开发者
- Nicolas Pintaux | 客户工程师,应用现代化改造专家
- Radhika Kanakam | Cloud GTM 高级项目经理
- Zach Seils | 网络专家
- Wade Holmes | 全球解决方案总监
使用 CloudOps 确保运营准备就绪和性能
Google Cloud 良好架构框架的卓越运营支柱中的这一原则有助于您确保云工作负载的运营准备情况和性能。该标准强调要明确服务性能的预期和承诺、实现强大的监控和提醒功能、开展性能测试,以及主动规划容量需求。
原则概览
不同组织对运营准备情况的解读可能会有所不同。运营准备情况是指贵组织为在 Google Cloud上成功运行工作负载所做的准备。准备运营复杂的多层级云工作负载需要仔细规划上线和第 2 天运营。这些操作通常称为 CloudOps。
运营准备工作的重点领域
运营准备工作包含四个重点领域。每个重点领域都包含一组活动和组件,这些活动和组件是准备在 Google Cloud中运行复杂应用或环境所必需的。下表列出了每个重点领域的组成部分和活动:
运营准备情况的重点领域 | activity 和组件 |
---|---|
员工队伍 |
|
进程 |
|
工具 | 支持 CloudOps 流程所需的工具。 |
治理 |
|
建议
如需使用 CloudOps 确保运营准备情况和性能,请考虑以下部分中的建议。本文档中的每项建议都与一个或多个运营准备工作的重点领域相关。
定义 SLO 和 SLA
云运维团队的一项核心职责是为所有关键工作负载定义服务等级目标 (SLO) 和服务等级协议 (SLA)。此建议与治理“运营准备情况”重点领域相关。
SLO 必须符合 SMART 原则(具体、可衡量、可实现、相关且有时间限制),并且必须反映您期望的服务水平和性能。
- 具体:明确说明所需的服务和效果水平。
- 可衡量:可量化和跟踪。
- 可实现:在贵组织的能力和资源范围内可实现。
- 相关:与业务目标和优先事项保持一致。
- 时限性:有明确的衡量和评估时间范围。
例如,Web 应用的 SLO 可能是“可用性为 99.9%”或“平均响应时间小于 200 毫秒”。此类 SLO 明确定义了 Web 应用所需的服务水平和性能,并且可以随时间的推移对 SLO 进行衡量和跟踪。
SLA 概述了我们对客户在服务可用性、性能和支持方面的承诺,包括违规时的所有处罚或补救措施。SLA 必须包含有关所提供服务、预期服务水平、服务提供商和客户的责任以及违规行为的任何处罚或补救措施的具体详细信息。SLA 是双方之间的合同协议,可确保双方都清楚了解与云服务相关的预期和义务。
Google Cloud 提供 Cloud Monitoring 和服务等级指标 (SLI) 等工具,帮助您定义和跟踪 SLO。Cloud Monitoring 提供全面的监控和可观测性功能,可让贵组织收集和分析与基于云的应用和服务的可用性、性能和延迟时间相关的指标。SLI 是您可用于在一段时间内衡量和跟踪 SLO 的特定指标。通过利用这些工具,您可以有效监控和管理云服务,并确保它们符合 SLO 和 SLA。
明确定义并传达所有关键云服务的 SLO 和 SLA 有助于确保已部署的应用和服务的可靠性和性能。
实现全面监测
如需实时了解云环境的运行状况和性能,我们建议您结合使用 Google Cloud 可观测性工具 和第三方解决方案。此建议与以下运营准备重点领域相关:流程和工具。
通过组合使用可观测性解决方案,您可以制定全面的可观测性策略,涵盖云基础架构和应用的各个方面。Google Cloud Observability 是一个统一的平台,可用于收集、分析和直观呈现来自各种Google Cloud 服务、应用和外部来源的指标、日志和轨迹。通过使用 Cloud Monitoring,您可以深入了解资源利用率、性能特性和资源的整体运行状况。
为了确保全面监控,请监控与系统运行状况指标一致的重要指标,例如 CPU 利用率、内存用量、网络流量、磁盘 I/O 和应用响应时间。您还必须考虑特定于业务的指标。通过跟踪这些指标,您可以发现潜在的瓶颈、性能问题和资源限制。此外,您还可以设置提醒,以便在出现潜在问题或异常时主动通知相关团队。
如需进一步增强监控功能,您可以将第三方解决方案与 Google Cloud Observability 集成。这些解决方案可以提供额外的功能,例如高级分析、依托机器学习的异常检测和突发事件管理功能。通过将 Google Cloud 可观测性工具与第三方解决方案相结合,您可以打造一个强大且可自定义的监控生态系统,以满足您的具体需求。通过这种组合方法,您可以主动发现和解决问题、优化资源利用率,并确保云应用和服务的整体可靠性和可用性。
实现性能和负载测试
定期进行性能测试有助于确保您的基于云的应用和基础架构能够处理高峰负载并保持最佳性能。负载测试会模拟真实的流量模式。压力测试会将系统推向极限,以便找出潜在的瓶颈和性能限制。此建议与以下运营准备重点领域相关:流程和工具。
Cloud 负载均衡和负载测试服务等工具可帮助您模拟真实的流量模式并对应用进行压力测试。这些工具可提供有关系统在各种负载条件下的行为方式的宝贵洞见,并有助于您确定需要优化的方面。
根据性能测试结果,您可以做出优化云基础架构和应用的决策,以实现最佳性能和可伸缩性。此优化可能涉及调整资源分配、调整配置或实现缓存机制。
例如,如果您发现应用在高流量期间出现运行缓慢的情况,则可能需要增加为应用分配的虚拟机或容器的数量。或者,您可能需要调整 Web 服务器或数据库的配置以提升性能。
通过定期进行性能测试并实施必要的优化,您可以确保云端应用和基础架构始终以最佳状态运行,并为用户提供顺畅且响应迅速的体验。这样做有助于您保持竞争优势并赢得客户信任。
规划和管理容量
主动规划未来的容量需求(无论是自然增长还是人为扩容),有助于确保云端系统的顺畅运行和可扩缩性。此建议与“运营准备情况”重点领域的流程相关。
规划未来容量包括了解和管理计算实例、存储空间和 API 请求等各种资源的配额。通过分析历史使用情况、增长预测和业务需求,您可以准确预测未来的容量需求。您可以使用 Cloud Monitoring 和 BigQuery 等工具来收集和分析使用情况数据、发现趋势并预测未来需求。
历史用量模式可让您深入了解一段时间内的资源利用情况。通过检查 CPU 利用率、内存用量和网络流量等指标,您可以确定高需求期和潜在瓶颈。此外,您还可以根据用户群增长、新产品和功能以及营销活动等因素,预测增长情况,从而估算未来的容量需求。在评估容量需求时,您还应考虑服务等级协议 (SLA) 和性能目标等业务要求。
确定工作负载的资源大小时,请考虑可能影响资源利用率的因素。节日季购物季或季度末促销等季节性变化可能会导致需求出现暂时性高峰。产品发布或营销活动等计划活动也可以显著提高流量。为确保您的主系统和灾难恢复 (DR) 系统能够处理意外的需求激增,请规划足够的容量,以便在自然灾害和网络攻击等中断期间支持顺利故障切换。
自动扩缩是一项重要的策略,可根据工作负载波动动态调整云资源。通过使用自动扩缩政策,您可以根据不断变化的需求自动扩缩计算实例、存储空间和其他资源。这样可确保在高峰期实现最佳性能,同时在资源利用率较低时尽可能降低成本。自动扩缩算法会使用 CPU 利用率、内存用量和队列深度等指标来确定何时扩缩资源。
持续监控和优化
如需管理和优化云工作负载,您必须建立一个持续监控和分析性能指标的流程。此建议与以下运营准备工作的重点领域相关:流程和工具。
为了建立持续监控和分析流程,您需要跟踪、收集和评估与云环境的各个方面相关的数据。通过使用这些数据,您可以主动发现有待改进的方面、优化资源利用率,并确保您的云基础架构始终能达到或超出您的性能预期。
性能监控的一个重要方面是定期查看日志和轨迹。日志可提供有关系统事件、错误和警告的有价值的分析洞见。轨迹会提供有关请求在应用中流动的详细信息。通过分析日志和轨迹,您可以发现潜在问题、找出问题的根本原因,并更好地了解应用在不同条件下的行为方式。服务之间往返时间等指标有助于您发现和了解工作负载中的瓶颈。
此外,您还可以使用性能调优技巧显著缩短应用响应时间并提高整体效率。以下是可供您使用的技术示例:
- 缓存:将频繁访问的数据存储在内存中,以减少重复的数据库查询或 API 调用的次数。
- 数据库优化:使用索引编制和查询优化等技术来提升数据库操作的性能。
- 代码性能分析:找出代码中消耗过多资源或导致性能问题的部分。
通过应用这些技术,您可以优化应用并确保其在云端高效运行。
管理突发事件和问题
Google Cloud 良好架构框架的卓越运营支柱中的这一原则提供了一些建议,可帮助您管理与云工作负载相关的突发事件和问题。这包括实施全面的监控和可观察性、建立明确的突发事件响应流程、进行彻底的根本原因分析,以及实施预防措施。此原则中讨论的许多主题在可靠性支柱中都有详细介绍。
原则概览
突发事件管理和问题管理是功能性运营环境的重要组成部分。您对不同严重程度的事故的响应、分类和解决方式可能会显著影响您的运营。此外,您还必须主动且持续地进行调整,以优化可靠性和性能。高效的突发事件和问题管理流程依赖于以下基本要素:
- 持续监控:快速识别和解决问题。
- 自动化:简化任务并提高效率。
- 编排:有效协调和管理云资源。
- 数据驱动型数据分析:优化云端运维并做出明智的决策。
这些元素可帮助您构建能够应对各种挑战和中断情况的弹性云环境。这些要素还有助于降低代价高昂的突发事件和停机风险,并帮助您实现更高的业务敏捷性和成功。这些基本要素分布在运营准备工作的四个重点领域:员工队伍、流程、工具和治理。
建议
如需有效管理突发事件和问题,请考虑以下部分中的建议。本文档中的每项建议都与一个或多个运营准备重点领域相关。
制定明确的突发事件响应程序
明确的角色和责任对于确保有效协调地响应突发事件至关重要。此外,明确的通信协议和上报路径有助于确保在突发事件期间及时有效地共享信息。此建议与以下运营准备重点领域相关:劳动力、流程和工具。
若要制定突发事件响应流程,您需要定义每个团队成员的角色和期望,例如突发事件指挥官、调查人员、沟通人员和技术专家。建立沟通和上报路径包括确定重要联系人、设置沟通渠道,以及在必要时确定将突发事件上报给更高级别管理人员的流程。定期培训和准备有助于确保团队具备有效应对突发事件的知识和技能。
通过在运行手册或手册中记录突发事件响应流程,您可以提供标准化的参考指南,供团队在突发事件期间遵循。运行手册必须概述在突发事件响应流程的每个阶段要采取的步骤,包括沟通、分类、调查和解决。还必须包含相关工具和资源的信息,以及重要人员的联系信息。您必须定期查看和更新 Runbook,确保其保持最新状态并有效运行。
集中管理突发事件
为了在整个事故生命周期中进行有效跟踪和管理,不妨考虑使用集中式事故管理系统。此建议与以下运营准备重点领域相关:流程和工具。
集中式突发事件管理系统具有以下优势:
- 提高了可见度:通过在一个位置整合所有与突发事件相关的数据,团队无需在各种渠道或系统中搜索背景信息。这种方法可以节省时间并减少混乱,还可以让利益相关方全面了解突发事件,包括其状态、影响和进度。
- 更好地协调和协作:集中式系统可提供统一的沟通和任务管理平台。它有助于参与突发事件响应的不同部门和职能之间进行无缝协作。这种方法可确保每个人都能访问最新信息,并降低沟通不畅和信息不一致的风险。
- 增强了问责和所有权:借助集中式突发事件管理系统,贵组织可以将任务分配给特定个人或团队,并确保明确定义和跟踪责任。这种方法有助于提升责任感,并鼓励团队成员主动解决问题,因为他们可以轻松监控自己的进度和贡献。
集中式突发事件管理系统必须提供强大的功能来跟踪突发事件、分配任务和管理沟通。借助这些功能,您可以自定义工作流、设置优先级,以及与其他系统(例如监控工具和工单系统)集成。
通过实现集中式突发事件管理系统,您可以优化组织的突发事件响应流程、改善协作,并提高可见性。这样做可以缩短问题解决时间、减少停机时间并提高客户满意度。这还有助于培养持续改进的文化,因为您可以从过去的事故中学习并找出需要改进的地方。
进行彻底的突发事件后审核
突发事件发生后,您必须进行详细的突发事件后评估 (PIR),也称为事后分析,以确定根本原因、促成因素和教训。这项彻底的审核有助于您日后防范类似事件。此建议与以下运营准备重点领域相关:流程和治理。
PIR 流程必须涉及对事故各个方面都有专业知识的多学科团队。该团队必须通过访谈、文件审核和现场检查来收集所有相关信息。必须创建事件时间轴,以确定导致事故的操作顺序。
该团队收集所需信息后,必须进行根本原因分析,以确定导致突发事件的因素。此分析必须找出导致事故的直接原因和系统性问题。
除了确定根本原因外,PIR 团队还必须确定可能导致该事故的任何其他促成因素。这些因素可能包括人为错误、设备故障,或沟通中断和缺乏培训等组织因素。
PIR 报告必须记录调查结果,包括事件时间表、根本原因分析和建议的措施。该报告对于实施纠正措施和防止问题再次发生非常有用。此报告必须与所有相关利益相关方共享,并且必须用于制定安全培训和程序。
为了确保 PIR 流程顺利进行,贵组织必须培养一种无指责文化,以学习和改进为重点,而不是归咎责任。这种文化鼓励个人举报事故,而无需担心遭到报复,让您能够解决系统性问题并做出切实改进。
通过开展彻底的 PIR 并根据调查结果实施纠正措施,您可以显著降低日后发生类似事件的风险。这种主动调查和防范事故的方法有助于为相关人员营造更安全、更高效的工作环境。
维护知识库
知识库包含已知问题、解决方案和问题排查指南,对于事件管理和解决至关重要。团队成员可以使用知识库快速发现和解决常见问题。实现知识库有助于减少上报需求,并提高整体效率。此建议与以下运营准备工作的重点领域相关:劳动力和流程。
知识库的一个主要优势是,它让团队能够从过往经验中学习,避免重复错误。通过记录和分享已知问题的解决方案,团队可以共同了解如何解决常见问题,以及在突发事件管理方面的最佳实践。使用知识库可以节省时间和精力,有助于标准化流程并确保在解决突发事件时保持一致性。
知识库不仅有助于缩短问题解决时间,还能促进各团队之间的知识共享和协作。借助集中的信息存储库,团队可以轻松访问知识库并为其贡献内容,从而培养不断学习和改进的文化。这种文化鼓励团队分享其专业知识和经验,从而打造更全面、更有价值的知识库。
如需有效创建和管理知识库,请使用适当的工具和技术。Google Workspace 等协作平台非常适合此用途,因为您可以通过这些平台轻松协同创建、修改和共享文档。这些工具还支持版本控制和更改跟踪,可确保知识库保持最新且准确。
让所有相关团队都能轻松访问知识库。您可以通过将知识库与现有的事件管理系统集成,或提供专用门户或 Intranet 网站来实现这一点。借助随时可用的知识库,团队可以快速访问他们高效解决突发事件所需的信息。这种可用性有助于缩短停机时间,并最大限度地减少对业务运营的影响。
定期查看和更新知识库,确保其内容相关且实用。监控突发事件报告、找出常见问题和趋势,并将新解决方案和问题排查指南纳入知识库。最新的知识库有助于您的团队更快、更有效地解决突发事件。
自动响应突发事件
自动化有助于简化突发事件响应和补救流程。这样,您就可以及时有效地解决安全漏洞和系统故障问题。通过使用 Cloud Run functions 或 Cloud Run 等 Google Cloud 产品,您可以自动执行通常需要手动操作且耗时的各种任务。此建议与以下运营准备重点领域相关:流程和工具。
自动突发事件响应具有以下优势:
- 缩短突发事件检测和解决时间:自动化工具可以持续监控系统和应用,实时检测可疑或异常活动,并在无需人工干预的情况下通知利益相关方或做出响应。借助此自动化功能,您可以在潜在威胁或问题演变为重大事故之前加以识别。检测到突发事件时,自动化工具可以触发预定义的补救措施,例如隔离受影响的系统、隔离恶意文件或回滚更改,以将系统恢复到已知的良好状态。
- 减轻安全和运维团队的负担:通过自动化事件响应,安全和运维团队可以专注于更具战略性的任务。通过自动执行日常和重复性任务(例如收集诊断信息或触发提醒),贵组织可以让人员腾出时间来处理更复杂和更严重的事件。这种自动化操作可以提高整体事件响应效果和效率。
- 提高修复流程的一致性和准确性:自动化工具可确保在所有受影响的系统中均采用一致的修复措施,最大限度地降低人为错误或不一致的风险。这样标准化的问题解决流程有助于最大限度地减少突发事件对用户和业务的影响。
管理和优化云资源
Google Cloud 良好架构框架的“卓越运营”支柱中的这一原则提供了一些建议,可帮助您管理和优化云工作负载使用的资源。这包括根据实际用量和需求合理调整资源,使用自动扩缩功能进行动态资源分配,实施费用优化策略,以及定期检查资源利用率和费用。此原则中讨论的许多主题在费用优化支柱中都有详细介绍。
原则概览
云资源管理和优化在优化云支出、资源用量和基础架构效率方面发挥着至关重要的作用。其中包含各种策略和最佳实践,旨在最大限度提高云支出的价值和回报。
此支柱的优化重点不仅仅是降低费用。该计划强调了以下目标:
- 效率:利用自动化和数据分析功能,实现卓越成效并节省费用。
- 效果:轻松扩缩资源,满足波动性需求并提供最佳结果。
- 可扩缩性:调整基础架构和流程,以适应快速增长和多样化的工作负载。
通过专注于这些目标,您可以在费用和功能性之间取得平衡。您可以就资源预配、扩缩和迁移做出明智的决策。此外,您还可以深入了解资源使用情况,从而主动发现并解决潜在问题,避免问题进一步恶化。
建议
如需管理和优化资源,请考虑以下部分中的建议。本文档中的每项建议都与一个或多个运营准备工作的重点领域相关。
合理调整资源规模
持续监控资源利用率并调整资源分配以满足实际需求,对于高效地管理云资源至关重要。过度预配资源可能会导致不必要的开支,而资源配置不足可能会导致性能瓶颈,进而影响应用性能和用户体验。为了实现最佳平衡,您必须采用积极主动的做法来调整云资源的大小。此建议与治理“运营准备情况”重点领域相关。
Cloud Monitoring 和 Recommender 可帮助您找出调整大小的机会。Cloud Monitoring 可让您实时了解资源利用率指标。借助这种可见性,您可以跟踪资源使用模式并发现潜在的低效问题。Recommender 会分析资源利用率数据,以便做出智能建议来优化资源分配。通过使用这些工具,您可以深入了解资源使用情况,并就如何合理调整资源规模做出明智的决策。
除了 Cloud Monitoring 和 Recommender 之外,不妨考虑使用自定义指标触发自动调整大小操作。借助自定义指标,您可以跟踪与应用和工作负载相关的特定资源利用率指标。您还可以配置提醒,以便在达到预定义阈值时通知管理员。然后,管理员可以采取必要的措施来调整资源分配。这种主动式方法可确保及时扩缩资源,从而有助于优化云端费用并防止出现性能问题。
使用自动扩缩
自动扩缩计算资源和其他资源有助于确保基于云的应用的性能和成本效益达到最佳水平。借助自动扩缩功能,您可以根据工作负载波动情况动态调整资源容量,以便在需要时获得所需资源,并避免过度预配和不必要的费用。此建议与运营准备情况的重点领域相关的流程有关。
为了满足不同应用和工作负载的多样化需求,Google Cloud 提供了各种自动扩缩选项,包括:
- Compute Engine 托管式实例组 (MIG) 是指作为单个实体进行管理和扩缩的一组虚拟机。借助 MIG,您可以定义自动扩缩政策,指定要在组中维持的虚拟机数量下限和上限,以及触发自动扩缩的条件。例如,您可以配置政策,以便在 CPU 利用率达到特定阈值时在 MIG 中添加虚拟机,并在利用率低于其他阈值时移除虚拟机。
Google Kubernetes Engine (GKE) 自动扩缩可动态调整集群资源,以满足应用的需求。它提供了以下工具:
- 集群自动扩缩器会根据 Pod 资源需求添加或移除节点。
- Pod 横向自动扩缩程序会根据 CPU、内存或自定义指标更改 Pod 副本的数量。
- Pod 纵向自动扩缩器会根据使用模式微调 Pod 资源请求和限制。
- 节点自动预配功能会自动为您的工作负载创建经过优化的节点池。
这些工具协同工作,可优化资源利用率、确保应用性能并简化集群管理。
Cloud Run 是一个无服务器平台,可让您运行代码,而无需管理基础架构。Cloud Run 提供内置的自动扩缩功能,可根据传入流量自动调整实例数量。当流量增加时,Cloud Run 会扩缩实例数量以处理负载。当流量减少时,Cloud Run 会缩减实例数以降低费用。
通过使用这些自动扩缩选项,您可以确保云端应用拥有处理各种工作负载所需的资源,同时避免过度预配和不必要的费用。使用自动扩缩功能可以提高性能、节省费用,并更高效地使用云资源。
利用费用优化策略
优化云支出有助于您有效管理贵组织的 IT 预算。此建议与治理“运营准备情况”重点领域相关。
Google Cloud 提供了多种工具和技术来帮助您优化云端费用。通过使用这些工具和方法,您可以从云支出中获得最大价值。这些工具和方法可帮助您确定可以降低费用的方面,例如识别未充分利用的资源或推荐更经济实惠的实例类型。 Google Cloud 可帮助优化云费用的选项包括:
- 承诺使用折扣 (CUD) 是一种折扣,适用于承诺在一段时间内达到特定使用量的客户。
- Compute Engine 中的持续使用折扣可针对持续使用服务提供折扣。
- 与常规虚拟机相比,Spot 虚拟机可让您以更低的费用使用未使用的虚拟机容量。
价格模型可能会随时间推移而发生变化,我们可能会推出与现有选项相比具有更出色效果或更低费用的新功能。因此,您应定期审核价格模型,并考虑替代功能。及时了解最新的价格模式和功能,您可以就云架构做出明智的决策,从而最大限度地降低成本。
Google Cloud的费用管理工具(例如预算和提醒)可提供有关云支出的有价值的数据分析。借助预算和提醒,用户可以设置预算,并在超出预算时收到提醒。这些工具可帮助用户跟踪其云支出,并找出可降低费用的地方。
跟踪资源用量和费用
您可以使用代码植入和标签来跟踪资源使用情况和费用。通过为云资源(例如项目、部门或其他相关维度)分配标记和标签,您可以对资源进行分类和整理。这样,您就可以监控和分析特定资源的支出模式,并找出使用量较高或可能有助于节省费用的方面。此建议与以下运营准备工作的重点领域相关:治理和工具。
Cloud Billing 和费用管理等工具可帮助您全面了解自己的支出模式。这些工具可提供有关云端使用情况的详细数据洞见,让您能够发现趋势、预测费用并做出明智的决策。通过分析历史数据和当前的支出模式,您可以确定费用优化工作的重点领域。
自定义信息中心和报告可帮助您直观呈现费用数据,并更深入地了解支出趋势。通过使用相关指标和维度自定义信息中心,您可以监控关键绩效指标 (KPI) 并跟踪实现费用优化目标的进度。报告可对费用数据进行更深入的分析。借助报告,您可以按特定时间段或资源类型过滤数据,以了解导致云支出增加的根本因素。
定期查看和更新代码、标签和费用分析工具,确保您掌握最新的云用量和费用信息。通过及时了解相关信息并开展费用事后分析或主动费用审核,您可以及时发现任何意外支出增加情况。这样,您就可以做出积极的决策,优化云资源并控制费用。
建立费用分配和预算
在云成本管理方面,问责和透明度对于优化资源利用率和确保财务控制至关重要。此建议与治理“运营准备情况”重点领域相关。
为了确保问责和透明度,您需要制定明确的费用分配和退款机制。通过将费用分配给特定团队、项目或个人,贵组织可以确保这些实体各自负责其云端使用情况。这种做法有助于培养归属感,并鼓励负责任地管理资源。此外,借助扣款机制,贵组织可以从内部客户收回云端费用,将激励措施与绩效挂钩,并促进财政纪律。
为不同的团队或项目设置预算是云端费用管理的另一个重要方面。借助预算,贵组织可以指定支出限额,并根据这些限额跟踪实际支出。通过这种方法,您可以做出主动决策,以防止支出失控。通过设置切合实际且可实现的预算,您可以确保高效使用云资源,并使其与业务目标保持一致。定期监控实际支出与预算的对比情况有助于您发现差异并及时解决可能超支的问题。
如需监控预算,您可以使用 Cloud Billing 预算和提醒等工具。这些工具可实时分析云支出,并会在可能超支时通知利益相关方。通过使用这些功能,您可以跟踪云端费用,并在出现重大偏差之前采取纠正措施。这种积极主动的做法有助于避免财务意外,并确保负责任地使用云资源。
自动执行和管理更改
Google Cloud 良好架构框架的卓越运营支柱中的这一原则提供了一些建议,可帮助您自动执行和管理云工作负载的更改。这涉及实施基础架构即代码 (IaC)、建立标准操作程序、实施结构化更改管理流程,以及使用自动化和编排。
原则概览
变更管理和自动化在确保云环境中顺利且有序地进行转换方面发挥着至关重要的作用。为了有效管理变更,您需要采用可最大限度减少中断情况并确保变更与现有系统无缝集成的策略和最佳实践。
有效的更改管理和自动化包括以下基本要素:
- 变更治理:制定清晰的变更管理政策和流程,包括审批流程和沟通计划。
- 风险评估:识别与变更相关的潜在风险,并通过风险管理技术加以缓解。
- 测试和验证:全面测试更改,确保其符合功能和性能要求,并减少可能出现的回归问题。
- 受控部署:以受控方式实现更改,确保用户能够无缝过渡到新环境,并在需要时提供无缝回滚机制。
这些基础要素有助于最大限度地减少变更的影响,并确保变更对业务运营有积极影响。这些元素由运营准备工作的重点领域中的流程、工具和治理来表示。
建议
如需自动执行和管理更改,请考虑以下部分中的建议。本文档中的每项建议都与一个或多个运营准备工作的重点领域相关。
采用 IaC
基础架构即代码 (IaC) 是一种革命性的云基础架构管理方法。您可以使用 Terraform 等工具以声明方式定义和管理云基础架构。IaC 可帮助您实现一致性、可重复性和简化更改管理。它还支持更快、更可靠的部署。此建议与以下运营准备工作的重点领域相关:流程和工具。
以下是采用 IaC 方法进行云部署的主要优势:
- 直观易懂的资源配置:借助 IaC 方法,您可以使用 JSON 或 YAML 等直观易懂的格式声明云基础架构资源。基础架构管理员和运维人员可以轻松了解和修改基础架构,并与他人协作。
- 一致性和可重复性:IaC 可确保基础架构部署的一致性和可重复性。无论是谁执行部署,您都可以确保基础架构始终以相同的方式进行预配和配置。这种方法有助于减少错误,并确保您的基础架构始终处于已知状态。
- 可追责性和简化的问题排查:IaC 方法有助于提高可追责性,并简化问题排查。通过将 IaC 代码存储在版本控制系统中,您可以跟踪更改,并确定更改的时间和更改者。如有必要,您可以轻松回滚到之前的版本。
实现版本控制
Git 等版本控制系统是 IaC 流程的关键组成部分。它提供强大的变更管理和风险缓解功能,因此被广泛采用,无论是通过内部开发还是 SaaS 解决方案。此建议与以下运营准备工作的重点领域相关:治理和工具。
通过跟踪 IaC 代码和配置的更改,版本控制可让您了解代码的演变,从而更轻松地了解更改的影响并发现潜在问题。这种增强型可见性有助于负责同一 IaC 项目的团队成员之间开展协作。
大多数版本控制系统都允许您在需要时轻松回滚更改。此功能有助于降低意外后果或错误的风险。通过在 IaC 工作流中使用 Git 等工具,您可以显著改进变更管理流程、促进协作并降低风险,从而实现更高效、更可靠的 IaC 实施。
构建 CI/CD 流水线
持续集成和持续交付 (CI/CD) 流水线可简化云应用的开发和部署流程。CI/CD 流水线可自动执行构建、测试和部署阶段,从而提高发布速度和频率,并改进质量控制。此建议与“运营准备情况”重点领域中的工具相关。
CI/CD 流水线可确保代码更改持续集成到中央代码库(通常是 Git 等版本控制系统)。持续集成有助于及早发现和解决问题,并降低出现 bug 或兼容性问题的可能性。
如需为云应用创建和管理 CI/CD 流水线,您可以使用 Cloud Build 和 Cloud Deploy 等工具。
- Cloud Build 是一项全代管式构建服务,可让开发者以声明方式定义和执行构建步骤。它可与热门的源代码管理平台无缝集成,并且可以通过代码推送和拉取请求等事件触发。
- Cloud Deploy 是一项无服务器部署服务,可自动将应用部署到各种环境(例如测试环境、预演环境和生产环境)。它提供蓝绿部署、流量拆分和回滚等功能,可让您更轻松地管理和监控应用部署。
将 CI/CD 流水线与版本控制系统和测试框架集成有助于确保云应用的质量和可靠性。通过在 CI/CD 流程中运行自动化测试,开发团队可以在代码部署到生产环境之前快速发现并修复任何问题。此集成有助于提高云应用的整体稳定性和性能。
使用配置管理工具
Puppet、Chef、Ansible 和 VM Manager 等工具可帮助您自动配置和管理云资源。借助这些工具,您可以确保在所有云环境中实现资源一致性和合规性。此建议与“运营准备情况”重点领域中的工具相关。
自动配置和管理云资源可带来以下好处:
- 显著降低手动错误的风险:涉及手动流程时,出错的可能性更高。配置管理工具通过自动化流程来降低此风险,从而确保在所有云资源中一致且准确地应用配置。这种自动化操作可以提高云环境的可靠性和稳定性。
- 提高运营效率:通过自动执行重复性任务,贵组织可以让 IT 人员腾出时间专注于更具战略意义的计划。这种自动化操作可以提高工作效率、节省成本,并更好地响应不断变化的业务需求。
- 简化复杂云基础架构的管理:随着云环境的规模和复杂性不断增加,管理资源可能变得越来越困难。配置管理工具提供了一个集中式平台来管理云资源。借助这些工具,您可以更轻松地跟踪配置、发现问题和实施更改。使用这些工具可以提高云环境的可见性、控制力和安全性。
自动执行测试
将自动化测试集成到 CI/CD 流水线有助于确保云应用的质量和可靠性。通过在部署之前验证更改,您可以显著降低出错和回归的风险,从而获得更稳定、更强大的软件系统。此建议与以下运营准备重点领域相关:流程和工具。
将自动化测试纳入 CI/CD 流水线的主要优势如下:
- 尽早检测 bug 和缺陷:自动化测试有助于在 bug 和缺陷在生产环境中造成重大问题之前,在开发过程中尽早检测到它们。此功能可避免在开发流程的后续阶段需要进行昂贵的重做和 bug 修复,从而节省时间和资源。
- 高质量且符合标准的代码:自动化测试有助于确保代码符合特定标准和最佳实践,从而提高代码的整体质量。此功能可让应用更易于维护和更可靠,并且不易出错。
您可以在 CI/CD 流水线中使用各种类型的测试技术。每种测试类型都有特定用途。
- 单元测试侧重于测试各个代码单元(例如函数或方法),以确保它们按预期运行。
- 集成测试用于测试应用的不同组件或模块之间的交互,以验证它们能否协同正常运行。
- 端到端测试通常与单元测试和集成测试搭配使用。端到端测试会模拟真实场景,以整体测试应用,并有助于确保应用符合最终用户的要求。
若要将自动化测试有效集成到 CI/CD 流水线中,您必须选择合适的测试工具和框架。有许多不同的选项,每种选项都有自己的优缺点。您还必须制定明确的测试策略,其中概述了要执行的测试类型、测试频率以及测试通过或失败的标准。遵循以下建议可确保自动化测试流程高效运行。此流程可提供有关云应用质量和可靠性的有价值的数据洞见。
持续改进和创新
Google Cloud 良好架构框架的“卓越运营”支柱中提供了这一原则,其中包含一些建议,可帮助您持续优化云端运维并推动创新。
原则概览
若要在云端持续改进和创新,您需要专注于持续学习、实验和适应。这有助于您探索新技术和优化现有流程,并提倡卓越文化,使贵组织能够实现并保持行业领先地位。
通过持续改进和创新,您可以实现以下目标:
- 加速创新:探索新技术和服务,增强能力并实现差异化。
- 降低成本:通过流程改进计划找出并消除低效问题。
- 提高敏捷性:快速适应不断变化的市场需求和客户需求。
- 改进决策制定:从数据和分析中获取有价值的洞见,以便根据数据做出决策。
那些秉承持续改进和创新原则的组织,可以充分释放云环境的潜力,实现可持续增长。此原则主要对应于人力资源的运营准备工作重点领域。创新文化让团队可以试用新工具和技术,从而扩展功能并降低成本。
建议
如需不断改进和创新云工作负载,请考虑以下部分中的建议。本文档中的每项建议都与一个或多个运营准备工作的重点领域相关。
培养学习文化
鼓励团队进行实验、分享知识并不断学习。采用“不指责”文化,将失败视为成长和改进的机会。此建议与员工“运营准备”重点领域相关。
营造鼓励学习的文化氛围后,团队便可以从错误中学习并快速迭代。这种方法鼓励团队成员承担风险、尝试新想法,并拓展工作边界。这还能营造出一种心理安全感环境,让个人能够放心分享失败经验并从中学习。以这种方式分享有助于营造更开放、更具协作性的环境。
为促进知识分享和持续学习,请为团队创造分享知识和相互学习的机会。您可以通过非正式和正式的学习会和会议来实现这一点。
通过培养勇于实验、知识共享和持续学习的文化,您可以营造一个环境,让团队能够勇于冒险、进行创新并不断发展。这种环境有助于提高工作效率、改进问题解决能力,并让员工更积极参与工作并充满干劲。此外,通过提倡“无指责”文化,您可以为员工营造一个安全的环境,让他们从错误中学习,并为团队的集体知识做出贡献。这种文化最终会带来更有弹性、更具适应性的员工队伍,他们能够更好地应对各种挑战,并在长期内取得成功。
定期进行回顾
通过回顾,团队可以反思自己的经历,找出哪些方面做得好,以及哪些方面有待改进。通过在项目或重大事故后开展回顾,团队可以从成功和失败中学习,不断改进其流程和做法。此建议与以下运营准备重点领域相关:流程和治理。
构建回顾的有效方法是使用开始-停止-继续模型:
- 开始:在回顾的开始阶段,团队成员会确定他们认为可以改进工作的新做法、流程和行为。其中会讨论为何需要进行更改以及如何实施更改。
- 停止:在停止阶段,团队成员会找出并消除不再有效或阻碍进度的做法、流程和行为。其中讨论了为何需要进行这些更改以及如何进行更改。
- 继续:在继续阶段,团队成员会确定效果良好且必须继续采用的做法、流程和行为。他们讨论了这些元素为何重要以及如何加以强化。
通过使用“开始-停止-继续”模型等结构化格式,团队可以确保回顾会高效且专注。此模型有助于促进讨论、确定主要收获,并确定日后改进的可行步骤。
及时了解云技术的最新动态
为了最大限度地发挥 Google Cloud 服务的潜力,您必须及时了解最新进展、功能和最佳实践。此建议与人力资源的“运营准备”重点领域相关。
参加相关会议、在线讲座和培训课程,是拓展知识面的重要途径。通过这些活动,您可以向 Google Cloud 专家学习、了解新功能,并与可能面临类似挑战的行业同行互动交流。通过参加这些会议,您可以深入了解如何有效使用新功能、优化云端运维并推动组织内创新。
为确保团队成员紧跟云技术的最新发展,请鼓励他们获取认证并参加培训课程。 Google Cloud提供各种认证,可验证特定云领域的技能和知识。获得这些认证,不仅体现了对卓越的追求,还能提供切实的证据来证明您在云技术方面的专业能力。 Google Cloud 和我们的合作伙伴提供的培训课程会深入探讨特定主题。这些课程提供直接的体验和实用技能,可立即应用于实际项目。通过投资于团队的专业发展,您可以培养持续学习的文化,并确保每个人都有在云端取得成功所需的技能。
积极征求和采纳反馈
收集用户、利益相关方和团队成员的反馈。利用反馈找出改进云解决方案的机会。此建议与人力资源的“运营准备”重点领域相关。
您收集的反馈有助于您了解解决方案用户不断变化的需求、问题和期望。这些反馈将作为宝贵的参考信息,帮助我们改进产品并确定未来改进的优先顺序。您可以使用各种机制来收集反馈:
- 调查问卷是一种从大量用户和利益相关方收集定量数据的有效方式。
- 用户访谈提供了深入收集定性数据的机会。通过访谈,您可以了解具体用户的具体问题和体验。
- 在云解决方案中放置反馈表单,可让用户以便捷的方式立即提供有关其体验的反馈。
- 与团队成员定期召开会议有助于收集有关技术方面和实现挑战的反馈。
您必须分析和综合通过这些机制收集的反馈,以找出常见的主题和模式。此分析有助于您根据建议的改进措施的影响和可行性,确定未来改进的优先顺序。通过解决通过反馈发现的需求和问题,您可以确保您的云解决方案能够持续满足用户和利益相关方不断变化的要求。
衡量和跟踪进度
关键绩效指标 (KPI) 和指标对于跟踪进度和衡量云端运维的有效性至关重要。KPI 是可量化的衡量指标,反映整体表现。指标是用于计算 KPI 的特定数据点。定期查看这些指标,并据此找出改进机会并衡量进度。这样有助于您持续改进和优化云环境。此建议与以下运营准备重点领域相关:治理和流程。
使用 KPI 和指标的主要好处是,它们可让贵组织采用数据驱动型方法来进行云端运维。通过跟踪和分析运营数据,您可以就如何改进云环境做出明智的决策。这种以数据为依据的方法有助于您发现在未使用系统化指标的情况下可能看不到的趋势、模式和异常。
如需收集和分析运维数据,您可以使用 Cloud Monitoring 和 BigQuery 等工具。Cloud Monitoring 可实时监控云资源和服务。借助 BigQuery,您可以存储和分析通过监控收集的数据。通过结合使用这些工具,您可以创建自定义信息中心,以直观呈现重要指标和趋势。
运营信息中心可以集中显示最重要的指标,让您快速发现需要注意的各个方面。例如,信息中心可能包含特定应用或服务的 CPU 利用率、内存用量、网络流量和延迟时间等指标。通过监控这些指标,您可以快速发现任何潜在问题并采取措施加以解决。