什么是 AI 工作负载?

AI 工作负载是指为人工智能机器学习 (ML) 系统提供支持的一系列计算任务和进程。您可以将其视为 AI 应用在学习、做出预测或生成新内容时所需的重型计算。这些工作负载对于构建 AI 的专业人员至关重要,因为它们涵盖了推动机器学习系统的关键阶段:数据准备、模型训练、推理和监控。

AI 工作负载编排选项

AI 工作负载的类型

AI 和机器学习工作负载大致可按以下两种方式分类

  • 它们所代表的 AI 生命周期的阶段(例如数据预处理、训练和推理)
  • 它们所执行的任务类型(例如自然语言处理或计算机视觉)

了解这些类型有助于技术决策者规划每种类型所需的特定基础设施、计算能力和编排策略。

AI 工作负载类型

在 AI 生命周期中的主要功能

所需的计算焦点

数据准备


清理、转换原始数据并设置其格式,使其处于可用于模型训练的状态。

高 I/O(输入/输出)和 CPU 密集型数据处理,用于数据操作。

模型训练

使用准备好的数据来训练 AI 模型,并迭代调整其参数以提高准确率。

极高的计算能力 (GPU/TPU)、高内存和并行处理。

模型推理

部署训练好的模型,以便基于新数据进行实时预测或生成输出。

低延迟和高吞吐量,通常需要专用边缘或云硬件。

生成式 AI

使用大型基础模型创建文本、图片或代码等新内容。

大规模推理和微调,需要高端 GPU/TPU。

计算机视觉


让机器能够解读图片和视频等视觉数据,并根据这些数据采取行动。

高数据吞吐量和专用深度学习加速。

自然语言处理 (NLP)

处理和理解人类语言,以执行翻译和摘要等任务。

混合使用 GPU 加速训练和低延迟服务,以支持实时应用。

AI 工作负载类型

在 AI 生命周期中的主要功能

所需的计算焦点

数据准备


清理、转换原始数据并设置其格式,使其处于可用于模型训练的状态。

高 I/O(输入/输出)和 CPU 密集型数据处理,用于数据操作。

模型训练

使用准备好的数据来训练 AI 模型,并迭代调整其参数以提高准确率。

极高的计算能力 (GPU/TPU)、高内存和并行处理。

模型推理

部署训练好的模型,以便基于新数据进行实时预测或生成输出。

低延迟和高吞吐量,通常需要专用边缘或云硬件。

生成式 AI

使用大型基础模型创建文本、图片或代码等新内容。

大规模推理和微调,需要高端 GPU/TPU。

计算机视觉


让机器能够解读图片和视频等视觉数据,并根据这些数据采取行动。

高数据吞吐量和专用深度学习加速。

自然语言处理 (NLP)

处理和理解人类语言,以执行翻译和摘要等任务。

混合使用 GPU 加速训练和低延迟服务,以支持实时应用。

有关 AI 工作负载的常见问题解答

AI 工作负载的主要特点是数据密集型(处理海量、通常为非结构化数据集)和计算密集型(需要专用并行处理硬件,如 GPU 进行训练)。传统工作负载(如关系型数据库或简单 Web 服务器)更注重一致的事务吞吐量,通常针对标准 CPU 架构进行优化。

当您需要创建新模型或通过向现有模型馈送新数据来显著改进现有模型时,需要选择训练工作负载,这可能需要高成本、高计算能力。

当您的模型准备就绪并已部署到生产环境,并且您需要它进行实时或批量预测时,您可以使用推理工作负载,这些工作负载优先考虑低延迟和高吞吐量,同时降低每笔交易的成本。

最大的挑战通常涉及编排,即高效协调大型 GPUTPU 集群;数据管理,即确保快速可靠地访问 PB 级数据;以及成本控制,即管理昂贵计算资源的消耗,以防止在空闲基础设施上超支。

新兴趋势包括使用支持 GPU 的无服务器平台来抽象化基础设施管理,采用多云编排来实现灵活的资源利用,以及利用基础模型,这些模型不需要从头开始训练,而是更侧重于微调和高效服务。

AI 工作负载的常见应用场景

AI 工作负载是数字化转型的核心,可为几乎所有行业提供影响深远的实际应用,将数据转化为实际价值。

个性化客户体验

AI 工作负载可以为零售、电子商务和媒体公司提供商品推荐引擎。例如,一家流媒体公司使用基于数十亿观看习惯训练的复杂机器学习模型,提供高度个性化的内容建议。

制造业中的预测性维护

制造商在关键设备上部署传感器,生成大量时序数据。AI 工作负载可以持续分析此数据,提前几天或几周预测机械故障,从而安排维护。

欺诈检测和金融风险分析

金融机构使用机器学习工作负载来实时分析数百万笔交易。这些模型可以识别指示欺诈的模式,有些系统可以高准确率和低误报率检测未经授权的交易。

医疗保健成像和诊断

计算机视觉工作负载用于分析 X 光片、CT 扫描和 MRI 等医学影像。这些 AI 模型能够快速、一致地标记潜在的异常情况(例如早期肿瘤),从而帮助人类临床医生做出更快、更准确的诊断。

生成式 AI 与内容制作

基于生成式 AI 模型的工作负载正在帮助创意和技术领域实现转型。它们可用于自动生成营销文案、合成逼真的广告图片、创建虚拟会议摘要,甚至可以通过建议和补全代码块来帮助开发者。

在 Google Cloud 上实现 AI 工作负载

Google Cloud 可以提供一个强大的统一生态系统,该生态系统基于为 Google 自身 AI 发展提供支持的基础设施构建而成,是托管、扩缩、编排和治理 AI 与机器学习工作负载的理想平台。

Vertex AI 是一个统一的机器学习平台,汇集了用于构建、部署和扩缩机器学习模型的所有云服务。它可以为整个 MLOps 生命周期提供单一环境,让数据科学家和工程师专注于模型开发,而不是工具集成。

Google Cloud 提供多种计算方案,包括 Cloud TPU 和 Cloud GPU。Cloud TPU(张量处理单元)专为提供大规模 AI 模型而构建。Cloud GPU 由 NVIDIA 图形处理单元 (GPU) 提供支持,可为各种 AI 和 HPC 工作负载提供灵活的高性能计算。


Vertex AI Pipelines 可让您使用 Kubeflow 等开源工具自动执行、管理和监控整个机器学习工作流。这对于创建可靠、可重复的数据准备、训练和部署流程至关重要。

Google Cloud 的 Identity and Access Management (IAM) 提供精细的控制功能,可管理哪些用户可以访问和管理您的 AI 资源、数据和模型。这可以确保只有授权人员和服务才能与您的敏感 AI 工作负载互动,从而帮助满足严格的监管和安全标准。

Google Kubernetes Engine (GKE) 是一项全托管式、可扩缩的 Kubernetes 服务,对于运行容器化 AI 工作负载至关重要。它可让您编排和管理复杂的集群,灵活使用硬件加速器,并可将您的 AI 环境无缝扩展到公有云和本地系统。

AI 工作负载的优势

部署 AI 工作负载可以带来显著的业务和技术优势,主要体现在提高效率、实现卓越的可伸缩性以及能够快速推动数据驱动的创新。它们可以帮助组织从被动运营转变为更主动、更智能的策略。

可伸缩性和加速性能

AI 工作负载(尤其是在云端)可以按需扩缩资源(例如添加数百个 GPU),以处理庞大的数据集和复杂的模型,而无需巨额的预付资本支出。

优化运营成本

基于云的 AI 平台让您只需为实际使用的计算资源付费,与维护专用本地硬件集群(这些集群在某些时段处于空闲状态)相比,有助于优化成本。

标准化和简化的部署流水线

AI 工作负载平台使用 MLOps(机器学习运维)工具来自动执行端到端生命周期并使其标准化,从数据准备到模型部署和监控。

安全和治理集成

云平台提供内置的安全功能(例如身份和访问权限管理 (IAM) 和网络安全),这些功能直接与您的 AI 环境集成。这有助于简化满足监管合规性和治理要求的流程。

支持混合云和多云环境

AI 解决方案旨在灵活运行。它们可以利用容器和编排工具,跨公有云提供商一致地管理和运行工作负载。

使用 Vertex AI 部署模型推理工作负载的步骤

部署经过训练的机器学习模型以进行推理,可能是实现 AI 工作负载生产化的关键步骤。Vertex AI 提供托管式服务来处理底层基础设施,从而简化了此流程。

将训练的模型上传到模型注册表

  • 第一步是将训练的模型制品上传到 Vertex AI Model Registry。此中央存储库可以安全地存储模型并对模型进行版本控制,使模型随时可以部署。

创建托管式端点

  • 接下来,您需要创建一个端点,即模型的专用实时 HTTP 服务器。此端点是您的应用将调用以获取预测结果的网址。您可以定义它将使用的计算资源类型,例如 N1 CPU 机器或用于加速性能的特定类型的 GPU。

将模型部署到端点

  • 创建端点后,您需要将特定版本的模型部署到该端点。此步骤涉及指定包含模型和预测服务器代码的容器映像(通常是 Vertex AI 提供的预构建映像)。您还可以配置流量分配,以便在完全推出新模型版本之前,先使用一小部分实时流量对其进行测试。

发送和接收在线预测

  • 部署后,该模型即可用于在线预测。您的应用通过 HTTP 请求将输入数据(载荷)发送到端点的网址,而托管式服务会处理推理工作负载,并近乎实时地返回预测或结果。

监控和治理端点

  • 最后一步是持续监控。您可以使用 Vertex AI 的集成工具跟踪端点的健康状况(延迟时间、错误率、资源利用率)和模型本身的性能(漂移、偏差和预测质量),以确保推理工作负载始终保持可靠和准确。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。

其他资源

  • GKE 上的 AI/机器学习工作负载简介:Google Kubernetes Engine 提供了一个托管式平台,用于部署和扩缩容器化 AI 和机器学习工作负载,支持使用 GPU 和 TPU 等硬件加速器进行大规模训练和推理。
  • 为 AI 和机器学习工作负载设计存储:本指南可帮助您为 AI 和机器学习工作流设计存储策略,并根据特定的延迟时间、吞吐量和容量要求推荐 Cloud Storage 和 Managed Lustre 等服务。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。