FSI 视角:费用优化

Last reviewed 2025-07-28 UTC

Google Cloud Well-Architected Framework:金融服务行业视角中的本文档概述了相关原则和建议,可帮助您优化 Google Cloud中金融服务行业 (FSI) 工作负载的费用。本文档中的建议与 Well-Architected Framework 的费用优化支柱保持一致。

要针对金融服务工作负载实现强大的费用优化,需要以下基本要素:

  • 能够识别浪费性资源利用与价值驱动型资源利用。
  • 嵌入式财务责任文化。

如需优化费用,您需要全面了解整个组织的费用驱动因素和资源需求。在一些大型组织中,尤其是在云历程的早期阶段,通常由一个团队负责优化众多网域的支出。此方法假设中心团队最适合发现提高效率的高价值机会。

在云采用的初始阶段或对于非关键工作负载,集中式方法可能会取得一些成功。不过,单个团队无法在整个组织内实现费用优化。当资源使用量或监管审查级别提高时,集中式方法就不可持续了。集中式团队在处理大量金融产品和服务时,尤其会面临可伸缩性方面的挑战。负责产品和服务的项目团队可能会抵制外部团队所做的更改。

为了有效优化成本,与支出相关的数据必须高度可见,并且接近工作负载的工程师和其他云用户必须有动力采取行动来优化成本。从组织的角度来看,成本优化的挑战在于确定应优化的领域、负责这些领域的工程师,然后说服他们采取所需的优化措施。本文档提供了一些建议来应对这一挑战。

本文档中的费用优化建议与以下核心原则相对应:

使用 Google Cloud 工具识别浪费

Google Cloud 提供了多种产品、工具和功能,可帮助您找出浪费之处。请考虑以下建议。

使用自动化和 AI 系统地确定要优化的内容

Active Assist 可针对对 FSI 至关重要的服务(例如用于微服务的 Cloud Run、用于数据分析的 BigQuery、用于核心应用的 Compute Engine 和用于关系型数据库的 Cloud SQL)提供智能建议。Active Assist 建议免费提供,无需您进行任何配置。这些建议可帮助您识别空闲资源和未充分利用的承诺。

通过统一的界面集中进行 FinOps 监控和控制

借助 Cloud Billing 报告FinOps 中心,您可以实现全面的费用监控。这种全面的视图对于财务审计人员和内部财务团队来说至关重要,有助于他们跟踪云支出、评估财务状况、评估各个业务部门或成本中心的 FinOps 成熟度,并提供一致的财务叙述。

通过分析和丰富支出数据来确定价值

Active Assist 可有效识别明显的浪费。不过,确定价值可能更具挑战性,尤其是在工作负载位于不合适的产品上或工作负载与业务价值缺乏明确的一致性时。对于 FSI 工作负载,业务价值不仅限于降低成本。这些价值包括风险缓解、法规遵从和获得竞争优势。

若要全面了解云支出和价值,您需要从多个层面进行全面了解:支出来自何处、支出推动了哪些业务职能,以及重构或优化相关工作负载的技术可行性。

下图展示了如何应用数据-信息-知识-智慧 (DIKW) 金字塔和 Google Cloud 工具来全面了解云费用和价值。

数据-信息-知识-智慧 (DIKW) 金字塔展示了如何使用云支出数据来制定明智的决策。

上图展示了如何使用 DIKW 方法将原始云支出数据提炼为可据以采取行动的分析洞见和决策,从而提升业务价值。

  • 数据:在此层中,您可以收集云资源的原始、未经处理的使用情况和费用数据流。您的中央 FinOps 团队使用 Cloud Billing 账单、结算导出和 Cloud Monitoring 等工具来获取精细的详细数据。例如,一个数据点可能是指名为 app1-test-vmA 的虚拟机在 us-central1 区域运行了 730 小时,费用为 70 美元。
  • 信息:在此层级,您的中央 FinOps 团队会使用 Cloud Billing 报告和 FinOps Hub 等工具来整理原始数据,以帮助回答“人们在哪些类别的资源上花费了资金?”之类的问题。例如,您可能会发现,在美国的两个区域中,机器类型为 n4-standard-2 的虚拟机的总支出为 1,050 美元。
  • 知识:在此层级,您的中央 FinOps 团队会为信息添加适当的业务背景信息,以说明花了钱以及出于什么目的。您可以使用标记、标签、资源层次结构、结算账号和自定义 Looker 信息中心等机制。例如,您可能会确定美国 app1 测试团队在 7 月的第二周花费了 650 美元,用于执行压力测试。
  • 智慧:在此层级,产品和应用团队会使用情境化知识来评估云支出的业务价值,并做出明智的战略决策。您的团队可能会回答以下问题:
    • 花费在数据分析流水线上的 5,000 美元是否产生了业务价值?
    • 我们能否重新设计流水线,在不降低性能的情况下提高效率?

在分析云支出数据时,请考虑以下建议。

分析由 Google Cloud提供的支出数据

首先,将详细的 Cloud Billing 数据导出到 BigQuery,并使用监控日志中提供的数据。为了获得可据以采取行动的洞见并做出决策,您需要对这些数据进行结构化处理,并使用业务背景信息对其进行丰富。

通过可用工具直观呈现数据

通过在 BigQuery 导出数据的基础上使用 Looker Studio 等工具,利用自定义报告来增强内置的 Google Cloud 信息中心。财务团队可以构建自定义信息中心,将云支出与财务指标、监管报告要求和业务部门盈利能力相关联。然后,他们可以提供清晰的财务叙述,供高管利益相关者进行分析和决策。

分配支出以明确责任

在了解云支出的驱动因素后,您需要确定是谁在花钱以及花钱的原因。这种程度的了解需要完善的费用分配实践,即为云资源附加与业务相关的元数据。例如,如果某个特定资源由 Banking-AppDev 团队使用,您可以将 team=banking_appdev 等标记附加到该资源,以跟踪该团队在该资源上产生的费用。理想情况下,您应将 100% 的云费用分配给支出来源。在实践中,您可能会从较低的目标开始,因为构建支持 100% 费用分摊的元数据结构是一项复杂的工作。

如需制定支持费用分摊的元数据策略,请考虑以下建议:

  • 有效性:确保跟踪代码有助于确定与业务相关的关键绩效指标 (KPI) 和监管要求。这种关联对于内部费用返还、监管报告以及使云支出与业务部门目标保持一致至关重要。例如,以下标记清楚地标识了支出团队、其所在区域以及他们负责的产品:team=banking_appdevregion=emeaproduct=frontend
  • 自动化:为了实现高水平的标记合规性,请通过自动化强制执行标记。手动标记容易出错且不一致,这在 FSI 环境中是不可接受的,因为在 FSI 环境中,可审核性和财务准确性至关重要。自动添加标记功能可确保资源在创建时得到正确分类。
  • 简单性:衡量简单且不相关的因素。FSI 环境非常复杂。为确保此类环境中的费用分摊规则易于理解和执行,规则必须尽可能简单。避免针对高度特定的(边缘)情况过度设计规则。复杂的规则可能会导致运营团队感到困惑和抵触。

使用标记定义分配策略后,您需要确定实施该策略的粒度级别。所需的精细程度取决于您的业务需求。例如,有些组织可能需要跟踪产品级费用,有些组织可能需要每个成本中心的费用数据,还有些组织可能需要每个环境(开发、预演和生产)的费用数据。

您可以考虑采用以下方法,为组织实现适当的费用分摊细化程度:

  • 使用 Google Cloud 中的项目层次结构作为费用分摊的自然起点。项目代表 Google Cloud中的政策执行点。默认情况下,IAM 权限、安全政策和费用归因于项目和文件夹。查看从 Cloud Billing 导出的费用数据时,您可以查看文件夹层次结构以及与费用数据关联的项目。如果您的Google Cloud 资源层次结构反映了组织在支出方面的责任结构,那么这是实现费用分配的最简单方法。
  • 使用标记标签可实现更精细的控制。它们提供了灵活的方式来对结算导出中的资源进行分类。标记和标签有助于按应用和环境细分费用。

通常,您可能需要将项目层次结构与标记和标签结合使用,才能有效分配费用。无论您选择哪种费用分摊方法,都应遵循前面介绍的建议,制定稳健的元数据策略:验证、自动化和简洁性。

明确责任并激励工程师采取行动

云 FinOps 团队负责推动组织重视成本和价值。各个产品团队和工程团队必须采取必要的费用优化措施。这些团队还负责金融服务工作负载的费用行为,并确保其工作负载提供所需的业务价值。

请考虑以下建议,以明确责任并激励团队优化成本。

组建集中式 FinOps 团队以进行治理

Cloud FinOps 实践不会自然而然地发展。专门的 FinOps 团队必须通过以下方式来定义和建立 FinOps 实践:

  • 构建所需的流程、工具和指南。
  • 制定、传达和执行必要的政策,例如强制性标记、预算审核和优化流程。
  • 鼓励工程团队对费用负责。
  • 如果工程团队不承担费用责任,请进行干预。

获得高管支持和授权

包括首席技术官、首席财务官和首席信息官在内的高级领导者必须积极倡导在整个组织内向 FinOps 文化转型。他们的支持对于优先考虑成本责任、为 FinOps 计划分配资源、确保跨职能参与以及推动遵守 FinOps 要求至关重要。

激励团队优化费用

工程师和工程团队可能不会主动专注于费用优化。请务必通过实施以下激励措施,使团队和个人目标与成本效益保持一致:

  • 将通过费用优化节省的部分资金重新投资到实现优化的团队中。
  • 公开认可并庆祝成本优化工作和取得的成功。
  • 使用游戏化技巧来奖励有效优化费用的团队。
  • 将效率指标纳入效果目标。

实施反馈和退款技术

确保团队能够清楚地了解其拥有的云资源和费用。将财务责任分配给团队内的相应人员。使用正式机制来强制执行严格的标记,并实施透明的规则来分配分摊的费用。

侧重于价值和总体拥有成本,而非费用

在评估云解决方案时,请考虑长期总拥有成本 (TCO)。例如,自行托管应用的数据库可能看起来比使用 Cloud SQL 等托管式数据库服务更便宜。不过,若要评估长期价值和总拥有成本,您必须考虑与自托管数据库相关的隐性成本。此类成本包括用于修补、伸缩、安全强化和灾难恢复的专用工程工作,这些都是 FSI 工作负载的关键要求。托管服务可提供显著更高的长期价值,从而抵消基础架构成本。托管式服务提供强大的合规性功能、内置的可靠性功能,并有助于减少运营开销。

请考虑以下建议,以便专注于价值和总拥有成本。

使用特定于产品的资源优化技术和工具

利用 Google Cloud产品提供的费用优化工具和功能,例如:

享受超值折扣优惠

使用 Google 提供的折扣,确保云资源的结算费率尽可能低。各个产品和工程团队通常负责管理资源优化。中心 FinOps 团队负责优化结算费率,因为他们可以了解整个组织的资源需求。因此,他们可以汇总需求,最大限度地享受基于承诺的折扣。

您可以为Google Cloud 资源享受以下类型的折扣:

  • 企业折扣是根据组织承诺的最低总支出金额 Google Cloud 以较低的结算费率协商达成的折扣。
  • 基于资源的 CUD 是以承诺在一年期或三年期内使用最少数量的 Compute Engine 资源为前提的。基于资源的 CUD 适用于特定项目和区域中的资源。如需在多个项目之间共享 CUD,您可以启用折扣共享
  • 基于支出的 CUD 是以承诺在一年期或三年期内为特定产品支出最低金额为前提的。基于支出的折扣适用于结算账号级别。折扣是按区域还是按全球应用,取决于具体产品。

除了企业折扣之外,您还可以使用 CUD 来节省大量费用。

除了 CUD 之外,您还可以使用以下方法来降低结算费率:

  • 对于容错型和灵活型工作负载,请使用 Spot 虚拟机。Spot 虚拟机比普通虚拟机的费用便宜 80% 以上。
  • BigQuery 提供多种价格模式,包括按需价格基于版本的价格,后者基于承诺和自动扩缩要求。如果您使用的 BigQuery 资源量很大,请选择合适的版本,以降低分析工作负载的每槽费用。
  • 请仔细评估您需要使用的服务的可用 Google Cloud 区域。选择符合您的费用目标以及延迟时间和合规性要求等因素的区域。如需了解费用、可持续性和延迟时间之间的权衡取舍,请使用Google Cloud 区域选择器