架构框架:AI 和机器学习视角中的本文档概述了在整个机器学习生命周期中优化 AI 系统费用的原则和建议。通过采用积极且明智的成本管理方法,贵组织可以充分发挥 AI 和机器学习系统的潜力,同时保持财务纪律。本文档中的建议与架构框架的费用优化支柱保持一致。
AI 和机器学习系统可以帮助您从数据中发掘有价值的分析洞见和预测能力。例如,您可以减少内部流程中的摩擦、改善用户体验,以及获得更深入的客户洞察。云端提供大量资源,可让您快速实现价值,而无需为 AI 和机器学习工作负载进行大量前期投资。为了最大限度地提高业务价值并使支出与业务目标保持一致,您需要了解费用驱动因素、主动优化费用、设置支出控制措施,并采用 FinOps 做法。
定义和衡量费用和回报
若要在 Google Cloud中有效管理 AI 和 ML 费用,您必须定义和衡量云资源的支出以及 AI 和 ML 计划的业务价值。 Google Cloud 提供全面的计费和费用管理工具,可帮助您精细跟踪支出。您可以衡量的业务价值指标包括客户满意度、收入和运营成本。通过为费用和业务价值确定具体的指标,您可以就资源分配和优化做出明智的决策。
请考虑以下建议:
- 为 AI 和机器学习项目制定明确的业务目标和关键绩效指标 (KPI)。
- 使用 Google Cloud 提供的结算信息来实现成本监控和报告流程,这有助于您将费用归因于特定 AI 和 ML 活动。
- 建立信息中心、提醒和报告系统,以便根据 KPI 跟踪费用和回报。
优化资源分配
若要在 Google Cloud中为 AI 和机器学习工作负载实现费用效率,您必须优化资源分配。通过仔细调整资源分配以满足工作负载需求,您可以避免不必要的开支,并确保 AI 和机器学习系统拥有实现最佳性能所需的资源。
请考虑以下建议:
- 使用自动扩缩功能动态调整训练和推理资源。
- 从小型模型和数据开始。尽可能以较小规模测试假设,从而节省费用。
- 通过实验了解您的计算需求。根据您的 ML 要求,调整用于训练和服务的资源规模。
- 采用 MLOps 实践,减少重复性工作、人工流程和低效的资源分配。
强制执行数据管理和治理做法
有效的数据管理和治理做法在成本优化中发挥着至关重要的作用。井井有条的数据有助于贵组织避免不必要的重复,减少获取高质量数据所需的工作量,并鼓励团队重复使用数据集。通过主动管理数据,您可以降低存储成本、提升数据质量,并确保机器学习模型基于最相关、最有价值的数据进行训练和运作。
请考虑以下建议:
- 建立并采用明确定义的数据治理框架。
- 在数据提取时,将标签和相关元数据应用于数据集。
- 确保数据集在整个组织中可被发现和访问。
- 尽可能让数据集和特征在整个机器学习生命周期内可重复使用。
利用 MLOps 实现自动化和简化
采用 MLOps 实践的一个主要好处是,从技术角度和人员活动角度来看,成本会降低。Automation 可帮助您避免重复机器学习活动,并提高数据科学家和机器学习工程师的工作效率。
请考虑以下建议:
- 提高数据收集和处理技术的自动化和标准化水平,从而减少开发工作量和时间。
- 开发自动化训练流水线,以减少手动干预的需求并提高工程师的工作效率。为流水线实现机制,以重复使用准备就绪的数据集和训练好的模型等现有资产。
- 使用 Google Cloud 中的模型评估和调优服务,以便通过更少的迭代次数提升模型性能。这样,AI 和机器学习团队就可以在更短的时间内实现更多目标。
使用托管式服务以及预训练或现有模型
利用 AI 和机器学习实现业务目标的方法有很多。采用增量方法进行模型选择和模型开发。这有助于避免每次从头开始所带来的过高费用。如需控制费用,请先采用简单的方法:使用机器学习框架、托管式服务和预训练模型。
请考虑以下建议:
- 使用笔记本环境进行探索性和快速的机器学习实验。
- 使用现有模型和预训练模型作为起点,加快模型选择和开发流程。
- 使用托管式服务训练或部署模型。AutoML 和托管式自定义模型训练服务都可以帮助降低模型训练费用。代管式服务还有助于降低模型服务基础架构的费用。
培养成本意识和持续优化的文化
营造鼓励沟通和定期审核的协作环境。这种方法有助于团队在整个机器学习生命周期中发现并实施节省费用的机会。
请考虑以下建议:
- 在整个机器学习生命周期中采用 FinOps 原则。
- 确保为 AI 和机器学习项目的所有费用和业务利益分配了明确负责的所有者。
贡献者
作者:
- Isaac Lo | AI 业务发展经理
- Filipe Gracio,博士 | 客户工程师
其他贡献者:
- Kumar Dhanagopal | 跨产品解决方案开发者
- Marwan Al Shawi | 合作伙伴客户工程师
- Nicolas Pintaux | 客户工程师,应用现代化改造专家