此页面由 Cloud Translation API 翻译。

Well-Architected Framework：卓越运营核心

Last reviewed 2025-02-14 UTC

Google Cloud Well-Architected Framework 中的卓越运营核心提供了一些建议，可帮助您在 Google Cloud上高效运行工作负载。云端卓越运营包括设计、实现和管理可提供价值、性能、安全性和可靠性的云解决方案。此核心中的建议可帮助您不断改进和调整工作负载，以满足云端不断变化的需求。

卓越运营核心适用于以下受众群体：

管理者和领导者：一个框架，用于在云端建立和保持卓越运营，并确保云投资能够带来价值并支持业务目标。
云运营团队：提供有关管理突发事件和问题、规划容量、优化性能以及管理变更的指导。
站点可靠性工程师 (SRE)：可帮助您实现高水平服务可靠性的最佳实践，包括监控、突发事件响应和自动化。
云架构师和工程师：设计和实现阶段的运营要求和最佳实践，有助于确保解决方案在设计时就考虑了运营效率和可伸缩性。
DevOps 团队：提供有关自动化、CI/CD 流水线和变更管理的指导，帮助实现更快、更可靠的软件交付。

为了实现卓越运营，您应采用自动化、编排和以数据为依据的分析洞见。Automation 有助于消除重复劳动。它还可以简化重复性任务并为其制定防护措施。编排有助于协调复杂的流程。以数据为依据的分析洞见有助于做出基于证据的决策。通过采用这些实践，您可以优化云运营、降低费用、提高服务可用性并增强安全性。

云端卓越运营不仅需要具备出色的云运营技术能力，它包括一种鼓励持续学习和实验的文化转变。必须赋予团队创新、迭代和采用成长型思维模式的权力。卓越运营文化有助于营造协作环境，鼓励个人分享想法、质疑假设并推动改进。

如需了解特定于 AI 和机器学习工作负载的卓越运营原则和建议，请参阅 Well-Architected Framework 中的 AI 和机器学习视角：卓越运营。

核心原则

Well-Architected Framework 的卓越运营核心中的建议与以下核心原则相对应：

借助 CloudOps 确保运营就绪状态和性能达标：通过定义服务等级目标 (SLO) 并执行全面的监控、性能测试和容量规划，确保云解决方案满足运营和性能要求。
管理突发事件和问题：通过全面的可观测性、清晰的突发事件响应过程、全面的回顾和预防措施，最大限度地减少云突发事件的影响并防止再次发生。
管理和优化云资源：通过适当调整规模、自动扩缩等策略以及使用有效的费用监控工具来优化和管理云资源。
将变更流程自动化，同时进行管控：将流程自动化，简化变更管理，减轻人工负担。
持续改进和创新：专注于持续增强功能和推出新解决方案，以保持竞争力。

贡献者

作者：

Ryan Cox | 首席架构师
Hadrian Knotz | 企业架构师

其他贡献者：

Daniel Lees | 云安全架构师
Filipe Gracio 博士 | 客户工程师，AI/机器学习专家
Gary Harmson | 首席架构师
Jose Andrade | 客户工程师，SRE 专家
Kumar Dhanagopal | 跨产品解决方案开发者
Nicolas Pintaux | 客户工程师，应用现代化改造专家
Radhika Kanakam | Google Cloud Well-Architected Framework 项目主管
Samantha He | 技术文档工程师
Zach Seils | 网络专家
Wade Holmes | 全球解决方案总监

借助 CloudOps 确保运营就绪状态和性能达标

Google Cloud Well-Architected Framework 卓越运营核心中的这一原则可帮助您确保云工作负载的运营就绪状态和性能。它强调要为服务性能设定明确的预期和承诺，实施稳健的监控和提醒，进行性能测试，并主动规划容量需求。

原则概览

不同的组织可能会对运行就绪状态有不同的解读。运营准备情况是指您的组织为在 Google Cloud上成功运行工作负载所做的准备。准备运行复杂的多层级云工作负载需要仔细规划，以确保顺利完成正式发布和day-2的运营。这些操作通常称为 CloudOps。

运营准备工作的重点领域

运营准备情况包含四个重点领域。每个重点领域都包含一组活动和组件，这些活动和组件对于准备在 Google Cloud中运行复杂的应用或环境至关重要。下表列出了每个重点领域的组成部分和活动：

运营准备就绪的重点领域	活动和组件
劳动力	为管理和运营云资源的团队明确定义角色和职责。确保团队成员具备适当的技能。制定学习计划。建立清晰的团队结构。聘用所需人才。
进程	可观测性。管理服务中断。云交付。核心云运营。
工具	支持 CloudOps 流程所需的工具。
治理	服务等级和报告。云端财务。云运营模式。架构审核和治理委员会。云架构和合规性。

建议

如需使用 CloudOps 确保运营就绪状态和性能达标，请考虑以下部分中的建议。本文档中的每项建议都与运营准备就绪程度的重点领域中的一个或多个相关。

定义 SLO 和 SLA

云运营团队的核心职责是为所有关键工作负载定义服务等级目标 (SLO) 和服务等级协议 (SLA)。此建议与运营准备就绪的治理重点领域相关。

SLO 必须遵循 SMART 原则，即具体、可衡量、可实现、相关且有时限，并且必须反映您期望的服务和性能水平。

具体：清楚说明所需的服务和性能水平。
可衡量：可量化且可跟踪。
可实现：在组织的能力和资源范围内可实现。
相关性：与业务目标和优先事项保持一致。
时限性：有明确的衡量和评估时间范围。

例如，Web 应用的 SLO 可能是“可用性达到 99.9%”或“平均响应时间低于 200 毫秒”。此类 SLO 明确定义了 Web 应用所需的服务和性能水平，并且可以随时间推移进行衡量和跟踪。

SLA 概述了针对服务可用性、性能和支持向客户做出的承诺，包括违规行为的任何处罚或补救措施。 SLA 必须包含有关所提供服务的具体详细信息、可预期的服务水平、服务提供商和客户的责任，以及任何违规行为的处罚或补救措施。SLA 可作为双方之间的合同协议，确保双方都清楚了解与云服务相关的预期和义务。

Google Cloud 提供 Cloud Monitoring 和服务等级指标 (SLI) 等工具，帮助您定义和跟踪 SLO。 Cloud Monitoring 提供全面的监控和可观测性功能，可让组织收集和分析与基于云的应用和服务相关的可用性、性能和延迟时间指标。SLI 是可用于衡量和跟踪 SLO 随时间变化的特定指标。利用这些工具，您可以有效地监控和管理云服务，并确保它们符合 SLO 和 SLA。

明确定义并传达所有关键云服务的 SLO 和 SLA 有助于确保所部署应用和服务的可靠性和性能。

实现全面观测

为了实时了解云环境的运行状况和性能，我们建议您结合使用 Google Cloud Observability 工具和第三方解决方案。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

实施多种可观测性解决方案，可为您提供全面的可观测性策略，涵盖云基础架构和应用的各个方面。Google Cloud Observability 是一个统一的平台，用于收集、分析和直观呈现来自各种Google Cloud 服务、应用和外部来源的指标、日志和轨迹。通过使用 Cloud Monitoring，您可以深入了解资源利用率、性能特征和资源的整体运行状况。

为确保全面监控，请监控与系统健康状况指标（例如 CPU 利用率、内存用量、网络流量、磁盘 I/O 和应用响应时间）相符的重要指标。您还必须考虑特定于业务的指标。通过跟踪这些指标，您可以发现潜在的瓶颈、性能问题和资源限制。此外，您还可以设置提醒，以便主动通知相关团队潜在问题或异常情况。

为了进一步增强监控功能，您可以将第三方解决方案与 Google Cloud Observability 集成。这些解决方案可以提供其他功能，例如高级分析、由机器学习技术支持的异常检测和突发事件管理功能。通过将 Google Cloud 可观测性工具与第三方解决方案相结合，您可以打造一个强大且可自定义的监控生态系统，以满足您的特定需求。通过使用这种组合方法，您可以主动发现和解决问题、优化资源利用率，并确保云应用和服务的整体可靠性和可用性。

实施性能和负载测试

定期执行性能测试有助于确保基于云的应用和基础架构能够处理峰值负载并保持最佳性能。负载测试可模拟真实的流量模式。压力测试会将系统推向极限，以找出潜在的瓶颈和性能限制。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

Cloud Load Balancing 和负载测试服务等工具可帮助您模拟真实世界的流量模式，并对应用进行压力测试。这些工具可提供有关系统在各种负载条件下的行为的宝贵分析洞见，并可帮助您确定需要优化的方面。

根据性能测试结果，您可以做出决策来优化云基础架构和应用，以实现最佳性能和可伸缩性。这种优化可能涉及调整资源分配、调整配置或实现缓存机制。

例如，如果您发现应用在流量高峰期运行速度变慢，可能需要增加分配给应用的虚拟机或容器数量。或者，您可能需要调整 Web 服务器或数据库的配置，以提高性能。

通过定期进行性能测试并实施必要的优化，您可以确保基于云的应用和基础设施始终以最佳性能运行，并为用户提供顺畅且响应迅速的体验。这样做有助于您保持竞争优势并赢得客户的信任。

规划和管理容量

主动规划未来的容量需求（无论是自然增长还是非自然增长）有助于确保云端系统的顺畅运行和可伸缩性。此建议与运营准备就绪流程重点领域相关。

规划未来容量包括了解和管理各种资源（例如计算实例、存储和 API 请求）的配额。通过分析历史使用模式、增长预测和业务需求，您可以准确预测未来的容量需求。您可以使用 Cloud Monitoring 和 BigQuery 等工具来收集和分析使用情况数据，识别趋势并预测未来需求。

历史用量模式可提供有关资源随时间推移的利用率的宝贵数据洞见。通过检查 CPU 利用率、内存使用情况和网络流量等指标，您可以确定需求旺盛的时期和潜在的瓶颈。此外，您还可以根据用户群增长、新产品和功能以及营销广告系列等因素做出增长预测，从而帮助估算未来的容量需求。在评估容量需求时，您还应考虑 SLA 和性能目标等业务需求。

在确定工作负载的资源大小调整时，请考虑可能会影响资源利用率的因素。节假日购物季或季度末促销等季节性变化可能会导致需求暂时激增。产品发布或营销广告系列等计划内活动也会显著增加流量。为确保主系统和灾难恢复 (DR) 系统能够应对意外的需求激增，请规划能够支持在自然灾害和网络攻击等中断期间实现平稳故障切换的容量。

自动扩缩是一项重要策略，可根据工作负载波动情况动态调整云资源。通过使用自动扩缩政策，您可以根据需求变化自动扩缩计算实例、存储空间和其他资源。这样可确保在高峰期获得最佳性能，同时在资源利用率较低时最大限度地降低成本。自动扩缩算法使用 CPU 利用率、内存使用量和队列深度等指标来确定何时扩缩资源。

持续监控和优化

若要管理和优化云工作负载，您必须建立一个持续监控和分析性能指标的流程。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

为了建立持续监控和分析流程，您需要跟踪、收集和评估与云环境各个方面相关的数据。通过使用这些数据，您可以主动识别需要改进的方面、优化资源利用率，并确保云基础架构始终达到或超出您的性能预期。

性能监控的一个重要方面是定期查看日志和轨迹。日志可提供有关系统事件、错误和警告的宝贵信息。轨迹可提供有关请求在应用中的流动的详细信息。通过分析日志和轨迹，您可以发现潜在问题、找出问题的根本原因，并更好地了解应用在不同条件下的行为。服务之间的往返时间等指标可帮助您识别和了解工作负载中的瓶颈。

此外，您还可以使用性能调优技巧来显著缩短应用响应时间并提高整体效率。以下是一些可用的技术示例：

缓存：将经常访问的数据存储在内存中，以减少重复的数据库查询或 API 调用。
数据库优化：使用索引和查询优化等技术来提高数据库操作的性能。
代码分析：找出代码中消耗过多资源或导致性能问题的区域。

应用这些技巧后，您可以优化应用并确保它们在云端高效运行。

管理突发事件和问题

Google Cloud Well-Architected Framework 的卓越运营核心中的这一原则提供了一些建议，可帮助您管理与云工作负载相关的突发事件和问题。这包括实施全面的监控和可观测性、制定清晰的突发事件响应流程、进行全面的根本原因分析，以及实施预防措施。此原则中讨论的许多主题都在可靠性支柱中进行了详细介绍。

原则概览

突发事件管理和问题管理是功能性运营环境的重要组成部分。您对不同严重程度的事件的响应、分类和解决方式可能会显著影响您的运营。您还必须主动持续地进行调整，以优化可靠性和性能。高效的突发事件和问题管理流程依赖于以下基本要素：

持续监控：快速发现和解决问题。
自动化：简化任务并提高效率。
编排：有效协调和管理云资源。
数据驱动型数据洞见：优化云运营并做出明智的决策。

这些要素可帮助您构建弹性的云环境，以应对各种挑战和中断。这些要素还有助于降低代价高昂的事件和停机风险，并帮助您提高业务灵活性和成功度。这些基础要素分布在运营准备就绪的四个重点领域：员工、流程、工具和治理。

建议

如需有效管理突发事件和问题，请考虑以下各部分中的建议。本文档中的每项建议都与运营准备就绪程度的重点领域中的一个或多个相关。

制定明确的突发事件响应流程

明确的角色和职责对于确保有效且协调地响应突发事件至关重要。此外，清晰的通信协议和升级途径有助于确保在突发事件期间及时有效地共享信息。此建议与以下运营准备就绪程度重点领域相关：员工、流程和工具。

若要制定突发事件响应流程，您需要明确每个团队成员（例如突发事件指挥官、调查员、沟通员和技术专家）的角色和预期。建立沟通和上报路径包括确定重要联系人、设置沟通渠道，以及定义在必要时将突发事件上报给更高级别管理层的流程。定期培训和准备有助于确保团队具备有效应对突发事件的知识和技能。

通过在 Runbook 或 Playbook 中记录突发事件响应程序，您可以为团队提供标准化参考指南，以便在突发事件发生时遵循。该实操手册必须概述在事件响应流程的每个阶段（包括沟通、初步评估、调查和解决）应采取的步骤。此外，还必须包含有关相关工具和资源的信息，以及重要人员的联系信息。您必须定期查看和更新运行手册，以确保其始终保持最新状态并有效。

集中进行突发事件管理

为了在整个突发事件生命周期内有效跟踪和管理突发事件，请考虑使用集中式突发事件管理系统。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

集中式突发事件管理系统具有以下优势：

提高可见性：通过将所有与突发事件相关的数据整合到一个位置，您无需让团队在各种渠道或系统中搜索上下文。这种方法可以节省时间并减少混乱，同时让利益相关者全面了解突发事件，包括其状态、影响和进展。
更出色的协调与协作：集中式系统可提供统一的通信和任务管理平台。它有助于参与突发事件响应的不同部门和职能部门之间实现无缝协作。这种方法可确保每个人都能获取最新信息，并降低沟通不畅和意见不合的风险。
增强了责任感和所有权：借助集中式突发事件管理系统，组织可以将任务分配给特定个人或团队，并确保明确定义和跟踪责任。这种方法有助于提高责任感，并鼓励主动解决问题，因为团队成员可以轻松监控自己的进度和贡献。

集中式突发事件管理系统必须提供强大的功能，以便进行突发事件跟踪、任务分配和通信管理。借助这些功能，您可以自定义工作流、设置优先级，并与其他系统（例如监控工具和工单系统）集成。

通过实施集中式突发事件管理系统，您可以优化组织的突发事件响应流程、改进协作并提高可见性。这样做有助于缩短突发事件解决时间、减少停机时间并提高客户满意度。它还有助于培养持续改进的文化，因为您可以从过去的突发事件中学习，并确定需要改进的方面。

进行全面的突发事件后审核

发生突发事件后，您必须进行详细的突发事件后审查 (PIR)，也称为事后分析，以确定根本原因、促成因素和经验教训。这种全面的检查有助于您防止日后发生类似事件。此建议与以下运营准备就绪程度重点领域相关：流程和治理。

PIR 流程必须由在事件的各个方面都具有专业知识的多学科团队参与。团队必须通过访谈、文档审核和现场检查来收集所有相关信息。必须创建事件时间轴，以确定导致事件发生的操作顺序。

在团队收集所需信息后，必须进行根本原因分析，以确定导致突发事件的因素。此分析必须确定导致事件的直接原因和系统性问题。

除了确定根本原因之外，PIR 团队还必须确定可能导致该事件的任何其他促成因素。这些因素可能包括人为错误、设备故障或组织因素（例如沟通不畅和缺乏培训）。

PIR 报告必须记录调查结果，包括事件时间表、根本原因分析和建议采取的行动。该报告是实施纠正措施和防止再次发生问题的宝贵资源。该报告必须与所有相关利益相关方分享，并且必须用于制定安全培训和程序。

为确保 PIR 流程顺利进行，组织必须营造一种不追究责任的文化，侧重于学习和改进，而不是追究责任。这种文化鼓励个人报告事件，而无需担心遭到报复，并且有助于您解决系统性问题并做出有意义的改进。

通过开展全面的 PIR 并根据调查结果实施纠正措施，您可以显著降低未来发生类似事件的风险。这种主动的事件调查和预防方法有助于为所有相关人员创造更安全、更高效的工作环境。

维护知识库

包含已知问题、解决方案和问题排查指南的知识库对于事件管理和解决至关重要。团队成员可以使用知识库快速识别和解决常见问题。实施知识库有助于减少升级需求，并提高整体效率。此建议与以下运营准备就绪程度重点领域相关：员工和流程。

知识库的主要优势在于，它可让团队从以往的经验中学习，避免重蹈覆辙。通过捕获和分享已知问题的解决方案，团队可以集体了解如何解决常见问题以及事件管理的最佳实践。使用知识库可节省时间和精力，并有助于标准化流程，确保事件解决的一致性。

知识库不仅有助于缩短突发事件解决时间，还能促进团队之间的知识共享和协作。借助集中式信息库，团队可以轻松访问知识库并为其贡献内容，从而营造持续学习和改进的文化。这种文化鼓励团队分享专业知识和经验，从而形成更全面、更有价值的知识库。

如需有效创建和管理知识库，请使用适当的工具和技术。Google Workspace 等协作平台非常适合此用途，因为它们可让您轻松创建、修改和协作共享文档。这些工具还支持版本控制和更改跟踪，可确保知识库保持最新状态并准确无误。

让所有相关团队都能轻松访问知识库。为此，您可以将知识库与现有事件管理系统集成，也可以提供专用门户或内网网站。借助随时可用的知识库，团队可以快速访问所需信息，从而高效解决突发事件。这种可用性有助于减少停机时间，并最大限度地减少对业务运营的影响。

定期检查并更新知识库，确保其保持相关性和实用性。监控突发事件报告，找出常见问题和趋势，并将新的解决方案和问题排查指南纳入知识库。最新的知识库有助于您的团队更快、更有效地解决突发事件。

实现突发事件响应自动化

Automation 有助于简化安全事件响应和补救流程。这样，您就可以及时有效地应对安全违规行为和系统故障。通过使用 Google Cloud Cloud Run functions 或 Cloud Run 等产品，您可以自动执行通常需要手动完成且耗时的各种任务。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

自动突发事件响应具有以下优势：

缩短了事件检测和解决时间：自动化工具可以持续监控系统和应用，实时检测可疑或异常活动，并在无需人工干预的情况下通知相关方或做出响应。借助此自动化功能，您可以在潜在威胁或问题升级为重大事件之前及时发现它们。检测到突发事件后，自动化工具可以触发预定义的补救措施，例如隔离受影响的系统、隔离恶意文件或回滚更改以将系统恢复到已知良好状态。
减轻安全和运营团队的负担：自动化的突发事件响应功能可让安全和运营团队专注于更具战略意义的任务。通过自动执行日常重复性任务（例如收集诊断信息或触发提醒），您的组织可以解放人员，让他们能够处理更复杂、更严重的突发事件。这种自动化可以提高整体事件响应的有效性和效率。
提高修复流程的一致性和准确性：自动化工具可确保在所有受影响的系统中统一应用修复措施，从而最大限度地减少人为错误或不一致的风险。这种标准化补救流程有助于最大限度地减少突发事件对用户和业务的影响。

管理并优化云资源

Google Cloud Well-Architected Framework 卓越运营核心中的这一原则提供了相关建议，可帮助您管理和优化云工作负载所用的资源。这包括根据实际用量和需求合理调整资源规模、使用自动扩缩功能动态分配资源、实施费用优化策略，以及定期检查资源利用率和费用。本原则中讨论的许多主题都在费用优化支柱中进行了详细介绍。

原则概览

云资源管理和优化在优化云支出、资源用量和基础设施效率方面发挥着至关重要的作用。它包含各种旨在最大限度提高云支出价值和回报的策略和最佳实践。

此支柱的优化重点不仅限于降低费用。它强调了以下目标：

效率：利用自动化和数据分析来最大限度地提升广告效果并节省费用。
性能：轻松扩缩资源，以满足不断变化的需求并提供最佳结果。
可伸缩性：调整基础设施和流程，以适应快速增长和多样化的工作负载。

通过专注于这些目标，您可以在成本和功能之间取得平衡。您可以就资源预配、伸缩和迁移做出明智的决策。此外，您还可以深入了解资源消耗模式，从而主动识别和解决潜在问题，避免问题升级。

建议

如需管理和优化资源，请考虑以下各部分中的建议。本文档中的每项建议都与运营准备就绪程度的重点领域中的一个或多个相关。

合理调整资源规模

持续监控资源利用率并调整资源分配以满足实际需求，对于高效的云资源管理至关重要。过度配置资源会导致不必要的费用，而配置不足会导致性能瓶颈，从而影响应用性能和用户体验。为了实现最佳平衡，您必须主动调整云资源的大小。此建议与运营准备情况的治理重点领域相关。

Cloud Monitoring 和 Recommender 可帮助您发现调整资源规模的机会。Cloud Monitoring 可实时显示资源利用率指标。通过这种可见性，您可以跟踪资源使用模式并发现潜在的效率低下的情况。Recommender 会分析资源利用率数据，从而针对优化资源分配提供智能建议。通过使用这些工具，您可以深入了解资源使用情况，并做出明智的决策，合理调整资源规模。

除了 Cloud Monitoring 和 Recommender 之外，您还可以考虑使用自定义指标来触发自动调整大小操作。借助自定义指标，您可以跟踪与应用和工作负载相关的特定资源利用率指标。您还可以配置提醒，以便在达到预定义阈值时通知管理员。然后，管理员可以采取必要措施来调整资源分配。这种主动式方法可确保及时扩缩资源，从而有助于优化云费用并防止出现性能问题。

使用自动扩缩

自动扩缩计算和其他资源有助于确保云端应用的性能和成本效益达到最佳水平。借助自动扩缩功能，您可以根据工作负载波动情况动态调整资源容量，以便在需要时获得所需的资源，并避免过度预配和不必要的费用。此建议与运营准备情况流程重点领域相关。

为了满足不同应用和工作负载的各种需求，Google Cloud 提供了各种自动扩缩选项，包括：

Compute Engine 托管式实例组 (MIG) 是作为单个实体进行管理和扩缩的虚拟机组。借助 MIG，您可以定义自动扩缩政策，用于指定要在实例组中维护的虚拟机数量下限和上限，以及触发自动扩缩的条件。例如，您可以配置一项政策，以便在 CPU 利用率达到某个阈值时在 MIG 中添加虚拟机，并在利用率降至另一个阈值以下时移除虚拟机。
Google Kubernetes Engine (GKE) 自动扩缩功能可动态调整集群资源，以满足应用的需求。它提供以下工具：
- 集群自动扩缩器会根据 Pod 资源需求添加或移除节点。
- Pod 横向自动扩缩器会根据 CPU、内存或自定义指标更改 Pod 副本的数量。
- Pod 纵向自动扩缩器会根据使用情况模式微调 Pod 资源请求和限制。
- 节点自动预配功能会自动为您的工作负载创建经优化的节点池。
这些工具协同工作，以优化资源利用率、确保应用性能并简化集群管理。
Cloud Run 是一个无服务器平台，可让您运行代码，而无需管理基础架构。Cloud Run 提供内置的自动扩缩功能，可根据传入流量自动调整实例数量。当流量增加时，Cloud Run 会扩缩实例数量以处理负载。当流量减少时，Cloud Run 会缩减实例数以降低费用。

通过使用这些自动扩缩选项，您可以确保云端应用拥有处理各种工作负载所需的资源，同时避免过度预配和不必要的费用。使用自动扩缩功能可以提高性能、节省费用，并更高效地利用云资源。

利用费用优化策略

优化云支出有助于您有效管理组织的 IT 预算。此建议与运营准备就绪的治理重点领域相关。

Google Cloud 提供了多种工具和技术，可帮助您优化云费用。通过使用这些工具和技术，您可以最大限度地提高云支出的价值。这些工具和技巧可帮助您确定可以降低费用的方面，例如识别未充分利用的资源或推荐更具成本效益的实例类型。 Google Cloud 可帮助优化云费用的选项包括：

承诺使用折扣 (CUD) 是一种折扣，可让您承诺在一段时间内达到一定的用量水平。
Compute Engine 中的持续使用折扣可为持续使用某项服务的用户提供折扣。
竞价型虚拟机可让您以比常规虚拟机更低的费用使用未使用的虚拟机容量。

定价模式可能会随时间而变化，并且可能会推出与现有选项相比性能更好或费用更低的新功能。因此，您应定期查看价格模式，并考虑使用其他功能。及时了解最新的价格模式和功能，有助于您根据实际情况做出明智的云架构决策，从而最大限度地降低成本。

Google Cloud的费用管理工具（例如预算和提醒）可提供有关云支出的宝贵数据分析。借助预算和提醒功能，用户可以设置预算，并在超出预算时收到提醒。这些工具可帮助用户跟踪其云支出，并找出可降低费用的方面。

跟踪资源用量和费用

您可以使用标记和标签来跟踪资源用量和费用。通过为项目、部门或其他相关维度等云资源分配标记和标签，您可以对资源进行分类和整理。这样一来，您就可以监控和分析特定资源的支出模式，并找出用量较高的区域或可能节省费用的区域。此建议与以下运营准备就绪程度重点领域相关：治理和工具。

借助 Cloud Billing 和费用管理等工具，您可以全面了解自己的支出模式。这些工具可提供有关云使用情况的详细数据洞见，让您能够识别趋势、预测费用并做出明智的决策。通过分析历史数据和当前的支出模式，您可以确定费用优化工作的重点。

借助自定义信息中心和报告，您可以直观地查看费用数据，并更深入地了解支出趋势。通过使用相关指标和维度自定义信息中心，您可以监控关键绩效指标 (KPI)，并跟踪费用优化目标的实现进度。报告可提供更深入的费用数据分析。通过报告，您可以按特定时间段或资源类型过滤数据，从而了解导致云支出的根本因素。

请定期查看并更新您的标记、标签和费用分析工具，确保您掌握有关云使用情况和费用的最新信息。通过及时了解情况并进行费用事后分析或主动的费用审核，您可以及时发现任何意外的支出增加。这样一来，您就可以主动做出决策，优化云资源并控制费用。

确定费用分配和预算

云成本管理中的责任和透明度对于优化资源利用率和确保财务控制至关重要。此建议与运营准备就绪的治理重点领域相关。

为确保问责制和透明度，您需要制定明确的费用分配和退款机制。通过将费用分配给特定团队、项目或个人，组织可以确保每个实体都对其云使用情况负责。这种做法有助于培养所有权意识，并鼓励负责任的资源管理。此外，退款机制可让组织从内部客户处收回云费用，使激励措施与绩效保持一致，并促进财务规范。

为不同团队或项目设置预算是云费用管理的另一个重要方面。借助预算，组织可以定义支出限额，并对照这些限额跟踪实际支出。这种方法可让您主动做出决策，以防止支出失控。通过设置切实可行的预算，您可以确保云资源得到高效利用，并与业务目标保持一致。定期监控实际支出与预算的对比情况，有助于您发现差异并及时解决潜在的超支问题。

如需监控预算，您可以使用 Cloud Billing 预算和提醒等工具。这些工具可提供有关云支出的实时数据洞见，并会在出现潜在超支时通知利益相关者。借助这些功能，您可以跟踪云费用，并在出现重大偏差之前采取纠正措施。这种主动式方法有助于避免意外的财务支出，并确保以负责任的方式使用云资源。

将变更流程自动化，同时进行管控

Google Cloud Well-Architected Framework 卓越运营核心中的这一原则提供了相关建议，可帮助您自动执行云工作负载的变更并对其进行管理。它涉及实施基础设施即代码 (IaC)、建立标准操作规程、实施结构化变更管理流程，以及使用自动化和编排。

原则概览

变更管理和自动化在确保云环境中的过渡平稳且受控方面发挥着至关重要的作用。为了有效地管理变更，您需要使用可最大限度减少中断并确保变更与现有系统无缝集成的策略和最佳实践。

有效的变更管理和自动化包括以下基本要素：

变更治理：制定清晰的变更管理政策和程序，包括审批流程和沟通计划。
风险评估：识别与变更相关的潜在风险，并通过风险管理技术来缓解这些风险。
测试和验证：全面测试更改，确保其满足功能和性能要求，并尽可能减少潜在的回归问题。
受控部署：以受控方式实现更改，确保用户能够无缝过渡到新环境，并提供在需要时无缝回滚的机制。

这些基本要素有助于最大限度地减少变更的影响，并确保变更对业务运营产生积极影响。这些要素通过运营准备就绪程度的流程、工具和治理重点领域来体现。

建议

如需自动执行和管理更改，请考虑以下各部分中的建议。本文档中的每项建议都与运营准备就绪程度的重点领域中的一个或多个相关。

采用 IaC

基础设施即代码 (IaC) 是一种用于管理云基础设施的变革性方法。您可以使用 Terraform 等工具以声明方式定义和管理云基础架构。IaC 可帮助您实现一致性、可重复性和简化的变更管理。它还可实现更快、更可靠的部署。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

为云部署采用 IaC 方法的主要优势如下：

易于理解的资源配置：借助 IaC 方法，您可以采用易于理解的格式（例如 JSON 或 YAML）声明云基础架构资源。基础架构管理员和运维人员可以轻松了解和修改基础架构，并与他人协作。
一致性和可重复性：Iac 可确保基础设施部署的一致性和可重复性。您可以确保每次预配和配置基础设施的方式都相同，无论谁在执行部署。这种方法有助于减少错误，并确保您的基础设施始终处于已知状态。
责任分明，简化问题排查流程：Iac 方法有助于明确责任，并简化问题排查流程。通过将 IaC 代码存储在版本控制系统中，您可以跟踪更改，并确定更改的时间和更改者。如有必要，您可以轻松回滚到之前的版本。

实现版本控制

Git 等版本控制系统是 IaC 流程的关键组成部分。它提供强大的变更管理和风险缓解功能，因此无论是通过内部开发还是 SaaS 解决方案，它都得到了广泛采用。此建议与以下运营准备就绪程度重点领域相关：治理和工具。

通过跟踪对 IaC 代码和配置的更改，版本控制可让您了解代码的演变，从而更轻松地了解更改的影响并发现潜在问题。这种增强的可见性有助于在同一 IaC 项目中工作的团队成员之间开展协作。

大多数版本控制系统都允许您在需要时轻松回滚更改。此功能有助于降低出现意外后果或错误的风险。通过在 IaC 工作流中使用 Git 等工具，您可以显著改进变更管理流程、促进协作并降低风险，从而实现更高效可靠的 IaC。

构建 CI/CD 流水线

持续集成和持续交付 (CI/CD) 流水线可简化云应用的开发和部署流程。CI/CD 流水线可自动执行构建、测试和部署阶段，从而实现更快、更频繁的发布，并改进质量控制。此建议与运营准备情况的工具重点领域相关。

CI/CD 流水线可确保代码变更持续集成到中央代码库（通常是 Git 等版本控制系统）中。持续集成有助于及早发现和解决问题，并降低出现 bug 或兼容性问题的可能性。

如需为云应用创建和管理 CI/CD 流水线，您可以使用 Cloud Build 和 Cloud Deploy 等工具。

Cloud Build 是一项全代管式构建服务，可让开发者以声明式方式定义和执行构建步骤。它可以与热门的源代码管理平台无缝集成，并且可以由代码推送和拉取请求等事件触发。
Cloud Deploy 是一项无服务器部署服务，可自动将应用部署到各种环境（例如测试、预发布和生产环境）。它提供蓝绿部署、流量拆分和回滚功能，可让您更轻松地管理和监控应用部署。

将 CI/CD 流水线与版本控制系统和测试框架集成有助于确保云应用的质量和可靠性。通过在 CI/CD 流程中运行自动化测试，开发团队可以在代码部署到生产环境之前快速发现并修复任何问题。此集成有助于提高云应用的整体稳定性和性能。

使用配置管理工具

借助 Puppet、Chef、Ansible 和 VM Manager 等工具，您可以自动配置和管理云资源。借助这些工具，您可以确保云环境中的资源保持一致并符合相关规定。此建议与运营准备状态的工具重点领域相关。

自动配置和管理云资源可带来以下好处：

大幅降低人工错误的风险：如果涉及人工流程，则因人为错误而导致出错的可能性更高。配置管理工具通过自动化流程来降低此风险，从而确保在所有云资源中一致且准确地应用配置。这种自动化可提高云环境的可靠性和稳定性。
运营效率的提升：通过自动化处理重复性任务，组织可以让 IT 员工腾出时间专注于更具战略意义的计划。这种自动化可提高生产效率、节省成本，并能更好地响应不断变化的业务需求。
简化复杂云基础设施的管理：随着云环境的规模和复杂性不断增加，资源管理可能会变得越来越困难。配置管理工具提供了一个用于管理云资源的集中式平台。借助这些工具，您可以更轻松地跟踪配置、发现问题和实施更改。使用这些工具可以提高云环境的可见性、控制力和安全性。

自动执行测试

将自动化测试集成到 CI/CD 流水线中，有助于确保云应用的质量和可靠性。通过在部署之前验证更改，您可以显著降低出错和回归的风险，从而获得更稳定、更强大的软件系统。此建议与以下运营准备就绪程度重点领域相关：流程和工具。

将自动化测试纳入 CI/CD 流水线的主要优势如下：

尽早检测 bug 和缺陷：自动化测试有助于在开发过程中尽早检测 bug 和缺陷，避免它们在生产环境中造成重大问题。此功能可防止在开发流程的后期阶段需要进行代价高昂的返工和 bug 修复，从而节省时间和资源。
高质量且符合标准的代码：自动化测试有助于确保代码符合特定标准和最佳实践，从而提高代码的整体质量。此功能可帮助您打造更易于维护且更可靠的应用，并减少应用出错的几率。

您可以在 CI/CD 流水线中使用各种类型的测试技术。每种测试类型都有特定的用途。

单元测试侧重于测试各个代码单元（例如函数或方法），以确保它们按预期运行。
集成测试用于测试应用的不同组件或模块之间的互动，以验证它们是否能正常协同工作。
端到端测试通常与单元测试和集成测试一起使用。端到端测试会模拟实际应用场景，以测试整个应用，并有助于确保应用满足最终用户的需求。

为了有效地将自动化测试集成到 CI/CD 流水线中，您必须选择合适的测试工具和框架。有许多不同的选项，每种选项都有自己的优缺点。您还必须制定明确的测试策略，其中应概述要执行的测试类型、测试频率以及测试通过或失败的标准。遵循这些建议有助于确保自动化测试流程高效且有效。此类流程可提供有关云应用质量和可靠性的宝贵数据洞见。

持续改进和创新

Google Cloud Well-Architected Framework 卓越运营核心中的这一原则提供了一些建议，可帮助您不断优化云运营并推动创新。

原则概览

为了在云中不断改进和创新，您需要专注于持续学习、实验和适应。这有助于您探索新技术并优化现有流程，同时还能培养卓越文化，使您的组织能够实现并保持行业领先地位。

通过持续改进和创新，您可以实现以下目标：

加速创新：探索新技术和服务，以增强功能并实现差异化。
降低成本：通过流程改进计划发现并消除低效环节。
提高敏捷性：快速适应不断变化的市场需求和客户需求。
改进决策流程：从数据和分析中获取有价值的洞见，以便根据数据做出决策。

秉持持续改进和创新原则的组织可以充分发挥云环境的潜力，实现可持续增长。此原则主要对应于“运营准备就绪”的员工重点领域。创新文化可让团队尝试使用新工具和技术来扩展功能并降低成本。

建议

如需不断改进和创新云工作负载，请考虑以下各部分中的建议。本文档中的每项建议都与运营准备就绪程度的重点领域中的一个或多个相关。

培养学习文化

鼓励团队进行实验、分享知识并不断学习。采用不责罚的文化，将失败视为成长和改进的机会。此建议与运营准备情况这一劳动力重点领域相关。

当您营造学习文化时，团队可以从错误中学习并快速迭代。这种方法鼓励团队成员冒险、尝试新想法并拓展工作范围。它还营造出一种心理安全感，让个人能够放心地分享失败经历并从中学习。这种分享方式有助于营造更加开放和协作的环境。

为了促进知识共享和持续学习，请为团队创造共享知识和互相学习的机会。您可以通过非正式和正式的学习课程以及会议来完成此操作。

通过培养勇于实验、知识共享和持续学习的文化，您可以营造一个让团队能够大胆冒险、不断创新和蓬勃发展的环境。这种环境有助于提高工作效率、改进问题解决能力，并让员工更积极主动、更有动力。此外，通过倡导无责文化，您可以为员工创造一个安全的环境，让他们从错误中学习，并为团队的集体知识做出贡献。这种文化最终会打造出更具韧性和适应性的员工队伍，让他们能够更好地应对挑战，并从长远来看推动成功。

定期开展回顾会议

回顾会议让团队有机会反思自己的经验，找出哪些方面做得好，哪些方面可以改进。通过在项目或重大事件后进行回顾，团队可以从成功和失败中学习，并不断改进流程和实践。此建议与以下运营准备就绪程度重点领域相关：流程和治理。

一种有效的回顾结构是使用开始-停止-继续模型：

开始：在回顾的开始阶段，团队成员会确定他们认为可以改进工作的新实践、流程和行为。他们讨论了为什么需要进行这些更改以及如何实施这些更改。
停止：在停止阶段，团队成员会找出并摒弃不再有效或阻碍进步的实践、流程和行为。他们会讨论为何需要进行这些更改，以及如何实施这些更改。
继续：在继续阶段，团队成员会确定哪些实践、流程和行为效果良好，必须继续保持。他们讨论了这些要素为何重要以及如何加强这些要素。

通过使用“开始-停止-继续”模型等结构化格式，团队可以确保回顾性分析富有成效且重点突出。此模型有助于促进讨论、确定主要结论，并确定可用于未来改进的可行步骤。

及时了解云技术的最新动态

若要最大限度发挥 Google Cloud 服务的潜力，您必须及时了解最新进展、功能和最佳实践。此建议与运营准备就绪程度这一员工队伍重点领域相关。

参加相关会议、在线讲座和培训课程是拓展知识的宝贵途径。这些活动可让您有机会向 Google Cloud 专家学习、了解新功能，并与可能面临类似挑战的同行交流。通过参加这些会议，您可以深入了解如何有效使用新功能、优化云运营，以及在组织内推动创新。

为确保团队成员紧跟云技术的发展，请鼓励他们获得认证并参加培训课程。 Google Cloud提供各种认证，可验证特定云领域的技能和知识。获得这些认证表明您致力于追求卓越，并提供了您精通云技术的切实证据。 Google Cloud 和我们的合作伙伴提供的培训课程会深入探讨特定主题。这些课程可提供直接的实践经验和实用技能，让学员能够立即将其应用于实际项目。通过投资于团队的专业发展，您可以培养持续学习的文化，并确保每位成员都具备在云端取得成功所需的技能。

积极征求并接纳反馈意见

收集用户、利益相关方和团队成员的反馈。利用反馈找出可改进云解决方案的机会。此建议与运营准备情况这一劳动力重点领域相关。

您收集的反馈有助于您了解解决方案用户的不断变化的需求、问题和期望。这些反馈意见可作为宝贵的输入内容，帮助我们推动改进并确定未来增强功能的优先级。您可以使用各种机制来收集反馈：

调查问卷是一种从大量用户和利益相关者那里收集定量数据的有效方式。
用户访谈可提供深入收集定性数据的机会。通过访谈，您可以了解个别用户的具体挑战和体验。
放置在云解决方案中的反馈表单为用户提供了一种便捷的方式，可让他们立即就自己的体验提供反馈。
与团队成员定期举行会议，有助于收集有关技术方面和实施挑战的反馈。

您必须分析和汇总通过这些机制收集的反馈，以找出常见的主题和模式。此分析可帮助您根据建议改进的影响和可行性来确定未来增强功能的优先级。通过解决反馈中发现的需求和问题，您可以确保云解决方案能够持续满足用户和利益相关者不断变化的要求。

衡量和跟踪进度

关键绩效指标 (KPI) 和指标对于跟踪进度和衡量云运营的有效性至关重要。KPI 是可量化的指标，可反映整体表现。指标是有助于计算 KPI 的特定数据点。定期查看这些指标，并利用它们来发现改进机会和衡量进度。这样做有助于您不断改进和优化云环境。此建议与以下运营准备就绪程度重点领域相关：治理和流程。

使用 KPI 和指标的主要好处是，它们可帮助组织在云运营中采用数据驱动的方法。通过跟踪和分析运营数据，您可以就如何改进云环境做出明智的决策。这种数据驱动的方法有助于您发现不使用系统性指标可能无法发现的趋势、模式和异常情况。

如需收集和分析运营数据，您可以使用 Cloud Monitoring 和 BigQuery 等工具。Cloud Monitoring 可实现对云资源和服务的实时监控。借助 BigQuery，您可以存储和分析通过监控收集的数据。通过结合使用这些工具，您可以创建自定义信息中心，直观呈现重要指标和趋势。

运营信息中心可以集中显示最重要的指标，让您快速确定需要注意的任何方面。例如，某个信息中心可能包含特定应用或服务的 CPU 利用率、内存用量、网络流量和延迟时间等指标。通过监控这些指标，您可以快速发现任何潜在问题，并采取措施来解决这些问题。