什么是 MLOps?

MLOps(机器学习运维)是一系列做法,可帮助数据科学家和工程师更高效地管理机器学习 (ML) 生命周期。

它旨在弥合机器学习的开发和运维之间的鸿沟。MLOps 的目标是确保以一致且可靠的方式开发、测试和部署机器学习模型。

随着越来越多的组织使用机器学习模型来做出关键的业务决策,MLOps 变得越来越重要。

MLOps 定义

MLOps 代表机器学习运维 (MLOps),是指管理机器学习生命周期(从开发到部署和监控)的过程。该过程涉及以下任务:

  • 实验跟踪:跟踪实验和结果以确定最佳模型
  • 模型部署:将模型部署到生产环境并使其可供应用访问
  • 模型监控:监控模型以检测是否存在任何问题或性能下降
  • 模型重新训练:使用新数据重新训练模型,以提升模型性能

MLOps 对于确保机器学习模型在生产环境中可靠、可扩缩和可维护至关重要。

MLOps 的重要性

MLOps 对于管理机器学习生命周期以及确保有效地开发、部署和维护机器学习模型至关重要。如果没有 MLOps,组织可能会面临多个挑战,其中包括:

错误风险增加:手动流程可能会导致在机器学习生命周期中出现错误和不一致,这可能会影响机器学习模型的准确性和可靠性。

缺乏可伸缩性:随着机器学习模型和数据集的规模和复杂性不断增加,手动流程可能难以管理,从而难以有效扩缩机器学习运维。

降低效率:手动流程可能耗时且效率低下,因此减缓机器学习模型的开发和部署。

缺乏协作:手动流程可能会使数据科学家、工程师和运营团队难以有效协作,从而导致孤岛和通信故障。

MLOps 通过提供框架和工具集来自动执行和管理机器学习生命周期,从而克服这些挑战。它使组织能够更高效、更可靠地大规模开发、部署和维护机器学习模型。

MLOps 的优势

MLOps 可为采用它的组织带来诸多好处,其中包括:

  • 提高效率:MLOps 可自动执行并简化机器学习生命周期,从而减少开发、部署和维护机器学习模型所需的时间和精力
  • 提高可伸缩性:MLOps 使组织能够更有效地扩缩其机器学习运维,处理更大的数据集和更复杂的模型
  • 提高可靠性:MLOps 可降低出现错误和不一致的风险,确保机器学习模型在生产环境中的可靠性和准确性
  • 增强协作:MLOps 为数据科学家、工程师和运营团队提供通用框架和工具集,以实现高效协作
  • 降低成本:MLOps 可自动执行和优化机器学习生命周期,减少对人工干预的需求,从而帮助组织降低成本

MLOps 与 DevOps 有什么区别?

DevOps 是一系列实践,可帮助组织在软件开发和运营团队之间架起一座桥梁。MLOps 是一系列类似的实践,专用于满足机器学习模型的需求。

MLOps 与 DevOps 之间存在一些主要区别,其中包括:

  • 范围:DevOps 侧重于软件开发生命周期,而 MLOps 侧重于机器学习生命周期
  • 复杂性:机器学习模型通常比传统软件应用更复杂,需要专门的工具和技术进行开发和部署
  • 数据:机器学习模型依赖数据进行训练和推理,这给管理和处理数据带来了额外的挑战
  • 监管:机器学习模型可能需要遵守监管要求,这可能会影响开发和部署流程

尽管存在这些差异,MLOps 和 DevOps 具有一些共同的原则,例如协作、自动化和持续改进的重要性。已采用 DevOps 实践的组织在实现 MLOps 时通常可以利用这些实践。

MLOps 的基本组成部分

MLOps 由多个组件组成,这些组件协同工作以管理机器学习生命周期,包括:

探索性数据分析 (EDA)

EDA 是探索和理解用于训练机器学习模型的数据的过程。此过程涉及以下任务:

  • 直观呈现数据:直观呈现数据,以发现模式、趋势和离群值
  • 数据清理:移除重复或错误的数据并处理缺失的值
  • 特征工程:将原始数据转换为对机器学习模型相关且有用的特征

数据准备和特征工程

数据准备和特征工程是 MLOps 流程中的关键步骤。数据准备涉及对原始数据进行清理、转换和格式设置,使其适合模型训练。

特征工程涉及从原始数据中创建与模型训练更相关、更有用的新特征。这些步骤对于确保使用高质量数据训练机器学习模型并且机器学习模型可以做出准确预测至关重要。

模型训练和微调

模型训练和调优涉及使用准备好的数据训练机器学习模型,并优化其超参数,以实现最佳性能。

模型训练和调优的常见任务包括:

  • 选择合适的机器学习算法:针对特定问题和数据集选择合适的机器学习算法
  • 训练模型:使用训练数据训练机器学习模型
  • 调优模型:调整机器学习模型的超参数以提高其性能
  • 评估模型:评估机器学习模型对于测试数据的表现

模型审核和治理

模型审核和治理可确保以负责任且合乎道德的方式开发和部署机器学习模型。

  • 模型验证:验证机器学习模型以确保其符合所需的性能和质量标准
  • 模型公平性:确保机器学习模型不会表现出偏见或歧视
  • 模型可解释性:确保机器学习模型易于理解和可解释
  • 模型安全性:确保机器学习模型安全且免受攻击

模型推理和服务

模型推理和提供涉及将经过训练的机器学习模型部署到生产环境,并使其可供应用和最终用户使用。

  • 模型部署:将机器学习模型部署到生产环境
  • 模型提供:使机器学习模型可用于由应用和最终用户进行推理
  • 模型监控:在生产环境中监控机器学习模型的性能和行为

模型监控

模型监控涉及在生产环境中持续监控机器学习模型的性能和行为。任务可能包括:

  • 跟踪模型性能:跟踪准确率、精确率和召回率等指标,以评估机器学习模型的性能
  • 检测模型偏移:检测随着时间的推移,机器学习模型的性能何时因数据或环境变化而下降
  • 识别模型问题:识别可能会影响机器学习模型性能的偏差、过拟合或欠拟合等问题

自动模型再训练

自动化模型重新训练包括在机器学习模型的性能下降或有新数据可用时重新训练机器学习模型。自动化模型重新训练包括:

  • 触发模型重新训练:在满足特定条件(例如模型性能下降或有新数据可用)时触发重新训练过程。
  • 重新训练模型:使用最新数据重新训练机器学习模型,然后在生产环境中更新模型
  • 评估重新训练过的模型:评估重新训练过的模型的性能,并确保它符合所需的性能标准

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台