架构框架:AI 和机器学习视角中的本文档概述了一些原则和建议,可帮助您在 Google Cloud 上构建和运行强大的 AI 和机器学习系统。这些建议可帮助您设置可观测性、自动化和可伸缩性等基本元素。本文档中的建议与架构框架的卓越运营支柱保持一致。
在 AI 和机器学习领域实现卓越运营,意味着能够顺畅地部署、管理和治理复杂的 AI 和机器学习系统和流水线,从而助力组织实现战略目标。卓越运营可让您高效应对变化、降低运营复杂性,并确保运营始终与业务目标保持一致。
为模型开发打下坚实基础
打下坚实的基础,从问题定义到部署简化模型开发流程。这样的基础可确保您的 AI 解决方案基于可靠、高效的组件和选项构建而成。这种基础有助于您快速轻松地发布更改和改进。
请考虑以下建议:
- 定义 AI 系统要解决的问题以及您希望的结果。
- 确定并收集训练和评估模型所需的相关数据。然后,清理和预处理原始数据。实现数据验证检查,以确保数据质量和完整性。
- 为任务选择合适的机器学习方法。在设计模型的结构和参数时,请考虑模型的复杂性和计算要求。
- 为代码、模型和数据采用版本控制系统。
自动执行模型开发生命周期
从数据准备和训练到部署和监控,自动化功能可帮助您提高运营质量和效率。Automation 可实现无缝、可重复且无错误的模型开发和部署。Automation 可最大限度地减少手动干预,加快发布周期,并确保各个环境之间的一致性。
请考虑以下建议:
- 使用托管式流水线编排系统来编排和自动执行机器学习工作流。该流水线必须处理开发生命周期的主要步骤:准备、训练、部署和评估。
- 为模型开发生命周期实现 CI/CD 流水线。这些流水线应自动构建、测试和部署模型。流水线还应包含连续训练,以便根据需要使用新数据重新训练模型。
- 实现分阶段发布方法(例如 Canary 版部署或 A/B 测试),以安全可控的方式发布模型。
实现可观测性
实现可观测性后,您可以深入了解模型性能、数据漂移和系统运行状况。实现持续监控、提醒和日志记录机制,以主动发现问题、触发及时响应并确保运营连续性。
请考虑以下建议:
- 为模型实现永久性和自动化的性能监控。 使用指标和成功标准持续评估部署后的模型。
- 监控部署端点和基础架构,确保服务可用。
- 根据业务专用阈值和异常情况设置自定义提醒,以确保及时发现和解决问题。
- 使用可解释 AI 技术来理解和解读模型输出。
打造卓越运营文化
卓越运营的基础是人员、文化和专业实践。团队和企业的成败取决于贵组织在多大程度上能够有效实施可确保可靠快速地开发 AI 功能的方法。
请考虑以下建议:
- 将自动化和标准化作为核心开发方法。使用 MLOps 技术简化工作流并高效管理机器学习生命周期。自动执行任务,腾出时间进行创新,并标准化流程,以实现一致性并简化问题排查。
- 优先考虑持续学习和改进。提供学习机会,让团队成员能够提升技能,及时了解 AI 和机器学习方面的最新进展。鼓励进行实验并定期进行回顾,以找出需要改进的地方。
- 培养负责任和承担责任的文化。明确定义角色,让每个人都能了解自己的贡献。为团队赋能,让他们能够使用透明的指标在边界内做出决策并跟踪进度。
- 将 AI 伦理和安全融入企业文化。将伦理考虑因素纳入机器学习生命周期的每个阶段,优先考虑负责任的系统。建立明确的道德原则,并就与道德相关的挑战开展公开讨论。
可伸缩性设计
构建 AI 解决方案,以应对不断增长的数据量和用户需求。 使用可伸缩的基础架构,以便模型能够随着项目扩展而进行调整并实现最佳性能。
请考虑以下建议:
- 规划容量和配额。预测未来增长情况,并相应地规划基础架构容量和资源配额。
- 为峰值事件做好准备。确保您的系统能够在高峰活动期间处理流量或工作负载的突然激增。
- 扩缩 AI 应用以用于生产环境。设计为支持横向伸缩,以适应工作负载的增加。使用 Ray on Vertex AI 等框架在多台机器上并行执行任务。
- 在适当的情况下使用托管式服务。使用有助于您扩容的服务,同时最大限度地减少手动干预的运维开销和复杂性。
贡献者
作者:
- Sannya Dang | AI 解决方案架构师
- Filipe Gracio,博士 | 客户工程师
其他贡献者:
- Kumar Dhanagopal | 跨产品解决方案开发者
- Marwan Al Shawi | 合作伙伴客户工程师
- Ryan Cox | 首席架构师
- Stef Ruinard | 生成式 AI 领域解决方案架构师