AI 工作负载类型 | 在 AI 生命周期中的主要功能 | 所需的计算焦点 |
数据准备 | 清理、转换原始数据并设置其格式,使其处于可用于模型训练的状态。 | 高 I/O(输入/输出)和 CPU 密集型数据处理,用于数据操作。 |
模型训练 | 使用准备好的数据来训练 AI 模型,并迭代调整其参数以提高准确率。 | 极高的计算能力 (GPU/TPU)、高内存和并行处理。 |
模型推理 | 部署训练好的模型,以便基于新数据进行实时预测或生成输出。 | 低延迟和高吞吐量,通常需要专用边缘或云硬件。 |
生成式 AI | 使用大型基础模型创建文本、图片或代码等新内容。 | 大规模推理和微调,需要高端 GPU/TPU。 |
计算机视觉 | 让机器能够解读图片和视频等视觉数据,并根据这些数据采取行动。 | 高数据吞吐量和专用深度学习加速。 |
自然语言处理 (NLP) | 处理和理解人类语言,以执行翻译和摘要等任务。 | 混合使用 GPU 加速训练和低延迟服务,以支持实时应用。 |
AI 工作负载类型
在 AI 生命周期中的主要功能
所需的计算焦点
数据准备
清理、转换原始数据并设置其格式,使其处于可用于模型训练的状态。
高 I/O(输入/输出)和 CPU 密集型数据处理,用于数据操作。
模型训练
使用准备好的数据来训练 AI 模型,并迭代调整其参数以提高准确率。
极高的计算能力 (GPU/TPU)、高内存和并行处理。
模型推理
部署训练好的模型,以便基于新数据进行实时预测或生成输出。
低延迟和高吞吐量,通常需要专用边缘或云硬件。
生成式 AI
使用大型基础模型创建文本、图片或代码等新内容。
大规模推理和微调,需要高端 GPU/TPU。
计算机视觉
让机器能够解读图片和视频等视觉数据,并根据这些数据采取行动。
高数据吞吐量和专用深度学习加速。
自然语言处理 (NLP)
处理和理解人类语言,以执行翻译和摘要等任务。
混合使用 GPU 加速训练和低延迟服务,以支持实时应用。
AI 工作负载的主要特点是数据密集型(处理海量、通常为非结构化数据集)和计算密集型(需要专用并行处理硬件,如 GPU 进行训练)。传统工作负载(如关系型数据库或简单 Web 服务器)更注重一致的事务吞吐量,通常针对标准 CPU 架构进行优化。
当您需要创建新模型或通过向现有模型馈送新数据来显著改进现有模型时,需要选择训练工作负载,这可能需要高成本、高计算能力。
当您的模型准备就绪并已部署到生产环境,并且您需要它进行实时或批量预测时,您可以使用推理工作负载,这些工作负载优先考虑低延迟和高吞吐量,同时降低每笔交易的成本。
新兴趋势包括使用支持 GPU 的无服务器平台来抽象化基础设施管理,采用多云编排来实现灵活的资源利用,以及利用基础模型,这些模型不需要从头开始训练,而是更侧重于微调和高效服务。
AI 工作负载是数字化转型的核心,可为几乎所有行业提供影响深远的实际应用,将数据转化为实际价值。
AI 工作负载可以为零售、电子商务和媒体公司提供商品推荐引擎。例如,一家流媒体公司使用基于数十亿观看习惯训练的复杂机器学习模型,提供高度个性化的内容建议。
制造商在关键设备上部署传感器,生成大量时序数据。AI 工作负载可以持续分析此数据,提前几天或几周预测机械故障,从而安排维护。
金融机构使用机器学习工作负载来实时分析数百万笔交易。这些模型可以识别指示欺诈的模式,有些系统可以高准确率和低误报率检测未经授权的交易。
计算机视觉工作负载用于分析 X 光片、CT 扫描和 MRI 等医学影像。这些 AI 模型能够快速、一致地标记潜在的异常情况(例如早期肿瘤),从而帮助人类临床医生做出更快、更准确的诊断。
基于生成式 AI 模型的工作负载正在帮助创意和技术领域实现转型。它们可用于自动生成营销文案、合成逼真的广告图片、创建虚拟会议摘要,甚至可以通过建议和补全代码块来帮助开发者。
Google Cloud 可以提供一个强大的统一生态系统,该生态系统基于为 Google 自身 AI 发展提供支持的基础设施构建而成,是托管、扩缩、编排和治理 AI 与机器学习工作负载的理想平台。
Vertex AI 是一个统一的机器学习平台,汇集了用于构建、部署和扩缩机器学习模型的所有云服务。它可以为整个 MLOps 生命周期提供单一环境,让数据科学家和工程师专注于模型开发,而不是工具集成。
Google Cloud 提供多种计算方案,包括 Cloud TPU 和 Cloud GPU。Cloud TPU(张量处理单元)专为提供大规模 AI 模型而构建。Cloud GPU 由 NVIDIA 图形处理单元 (GPU) 提供支持,可为各种 AI 和 HPC 工作负载提供灵活的高性能计算。
Vertex AI Pipelines 可让您使用 Kubeflow 等开源工具自动执行、管理和监控整个机器学习工作流。这对于创建可靠、可重复的数据准备、训练和部署流程至关重要。
Google Cloud 的 Identity and Access Management (IAM) 提供精细的控制功能,可管理哪些用户可以访问和管理您的 AI 资源、数据和模型。这可以确保只有授权人员和服务才能与您的敏感 AI 工作负载互动,从而帮助满足严格的监管和安全标准。
Google Kubernetes Engine (GKE) 是一项全托管式、可扩缩的 Kubernetes 服务,对于运行容器化 AI 工作负载至关重要。它可让您编排和管理复杂的集群,灵活使用硬件加速器,并可将您的 AI 环境无缝扩展到公有云和本地系统。
部署 AI 工作负载可以带来显著的业务和技术优势,主要体现在提高效率、实现卓越的可伸缩性以及能够快速推动数据驱动的创新。它们可以帮助组织从被动运营转变为更主动、更智能的策略。
可伸缩性和加速性能
AI 工作负载(尤其是在云端)可以按需扩缩资源(例如添加数百个 GPU),以处理庞大的数据集和复杂的模型,而无需巨额的预付资本支出。
优化运营成本
基于云的 AI 平台让您只需为实际使用的计算资源付费,与维护专用本地硬件集群(这些集群在某些时段处于空闲状态)相比,有助于优化成本。
标准化和简化的部署流水线
AI 工作负载平台使用 MLOps(机器学习运维)工具来自动执行端到端生命周期并使其标准化,从数据准备到模型部署和监控。
安全和治理集成
云平台提供内置的安全功能(例如身份和访问权限管理 (IAM) 和网络安全),这些功能直接与您的 AI 环境集成。这有助于简化满足监管合规性和治理要求的流程。
支持混合云和多云环境
AI 解决方案旨在灵活运行。它们可以利用容器和编排工具,跨公有云提供商一致地管理和运行工作负载。
部署经过训练的机器学习模型以进行推理,可能是实现 AI 工作负载生产化的关键步骤。Vertex AI 提供托管式服务来处理底层基础设施,从而简化了此流程。
将训练的模型上传到模型注册表
创建托管式端点
将模型部署到端点
发送和接收在线预测
监控和治理端点