AI 推理是人工智能中负责“执行”的部分。这是训练完成的模型停止学习并开始工作的时刻,它会将所学知识转化为现实世界中的成果。
可以这样理解:训练就像教会 AI 一项新技能,而推理则是它实际应用这项技能完成任务。它接收新数据(如照片或文本),并即时生成输出,例如进行预测、生成图像或做出决策。这就是 AI 创造业务价值的地方。对于任何使用 AI 构建方案的人来说,掌握如何让推理更快速、可扩缩且具成本效益,是打造成功解决方案的关键。例如,企业开发者可在 Google Kubernetes Engine (GKE) 上利用 AI 推理构建一个系统,实时分析客户购买行为,并在结账时提供个性化折扣,从而提升销售额和客户满意度。
完整的 AI 生命周期涵盖从数据收集到长期监控的各个环节,而模型从创建到执行的核心过程可分为三个关键阶段。前两个阶段侧重学习,最后一个则是应用所学。
下表总结了主要区别:
AI 训练 | AI 微调 | AI 推理 | AI 服务 | |
目标 | 从头开始构建新模型。 | 针对特定任务调整预训练模型。 | 利用训练好的模型进行预测。 | 部署并管理模型以处理推理请求。 |
流程 | 从大型数据集中迭代学习。 | 使用较小的数据集微调现有模型。 | 对新数据进行一次快速的“前向传递”。 | 封装模型并发布为 API 接口 |
数据 | 庞大的历史标记数据集。 | 较小的特定任务数据集。 | 实时的真实世界未标记数据。 | 不适用 |
业务重点 | 模型准确率和能力。 | 效率和自定义。 | 低延迟、可扩缩性和成本效益。 | 推理端点的可靠性、可伸缩性和易管理性。 |
AI 训练
AI 微调
AI 推理
AI 服务
目标
从头开始构建新模型。
针对特定任务调整预训练模型。
利用训练好的模型进行预测。
部署并管理模型以处理推理请求。
流程
从大型数据集中迭代学习。
使用较小的数据集微调现有模型。
对新数据进行一次快速的“前向传递”。
封装模型并发布为 API 接口
数据
庞大的历史标记数据集。
较小的特定任务数据集。
实时的真实世界未标记数据。
不适用
业务重点
模型准确率和能力。
效率和自定义。
低延迟、可扩缩性和成本效益。
推理端点的可靠性、可伸缩性和易管理性。
从本质上讲,AI 推理涉及三个步骤,可将新数据转化为有用的输出。
我们通过一个简单的示例来了解一下:一个用于识别照片中物体的 AI 模型。
虽然单次推理很快,但为数百万用户提供实时服务会增加延迟和成本,并且需要优化硬件。AI 专用图形处理器 (GPU) 和 Google 的张量处理单元可以搭配 Google Kubernetes Engine 的编排功能一起使用,高效地处理这些任务,以提高吞吐量并降低延迟。
这是最常见的方法,推理在数据中心强大的远程服务器上运行。云提供了巨大的可伸缩性和计算资源,非常适合处理海量数据集和复杂模型。在云端,通常有两种主要的推理模式:
这种方法直接在生成数据的设备(例如智能手机或工业传感器)上执行推理。边缘推理无需往返云端,因此具有独特的优势:
为了帮助您根据具体需求选择最佳方法,我们快速比较了每种 AI 推理类型的关键特征和应用场景:
功能 | 批量推理 | 实时推理 | 边缘推理 |
主要地点 | 云(数据中心) | 云(数据中心) | 本地设备(例如手机、IoT 传感器、机器人) |
延迟时间/响应能力 | 高(在批处理完成后返回预测结果) | 非常低(每个请求低至毫秒到秒) | 极低(近乎瞬时,无需网络跃点) |
数据量 | 大型数据集(例如 TB 级) | 单个事件/请求 | 单个事件/请求(设备端) |
数据流 | 数据发送到云端经过处理后返回结果 | 每个请求发送到云端、经过处理并返回 | 在设备上处理数据、在设备上使用结果 |
典型使用场景 | 大规模文档分类、隔夜财务分析、定期预测性维护 | 商品推荐、聊天机器人、实时翻译、实时欺诈提醒 | 自动驾驶、智能相机、离线语音助理、工业质量控制 |
主要优势 | 适合处理大型非紧急任务,成本效益高 | 为面向用户的应用实现即时响应 | 实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本 |
功能
批量推理
实时推理
边缘推理
主要地点
云(数据中心)
云(数据中心)
本地设备(例如手机、IoT 传感器、机器人)
延迟时间/响应能力
高(在批处理完成后返回预测结果)
非常低(每个请求低至毫秒到秒)
极低(近乎瞬时,无需网络跃点)
数据量
大型数据集(例如 TB 级)
单个事件/请求
单个事件/请求(设备端)
数据流
数据发送到云端经过处理后返回结果
每个请求发送到云端、经过处理并返回
在设备上处理数据、在设备上使用结果
典型使用场景
大规模文档分类、隔夜财务分析、定期预测性维护
商品推荐、聊天机器人、实时翻译、实时欺诈提醒
自动驾驶、智能相机、离线语音助理、工业质量控制
主要优势
适合处理大型非紧急任务,成本效益高
为面向用户的应用实现即时响应
实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本
AI 推理正在推动各行各业转型,实现更高水平的自动化、更智能的决策和创新型应用。对于企业开发者,推理在以下几个关键领域可带来切实的业务价值:
Google Cloud 提供了一整套工具和服务,可帮助开发者和组织高效地大规模构建、部署和管理 AI 推理工作负载。推理功能已深度集成到许多产品中:
Google Cloud 产品 | 支持的推理方法 | 非常适合以下场景 | 推理应用场景示例 |
所有推理类型(云端和混合环境) | 能够获得极大的控制权和灵活性,以便在云端或混合环境中部署、管理和扩缩自定义容器化推理服务,这些服务通常使用专用硬件。 | 部署并扩缩定制的 AI 模型,用于在复杂工业系统中进行实时异常检测。 | |
实时云端推理(无服务器) | 部署容器化模型,支持自动扩缩至零并按请求计费,适用于高度波动的间歇性工作负载或简单的 Web 服务。 | 在流量波动较大的 Web 应用中部署中小型模型,以确保成本效益。 | |
实时和批量云端推理 | 为广泛的 AI 模型和框架提供高性能且灵活的加速支持。 | 用于医疗诊断的高分辨率图像可被快速处理,也可加速复杂的金融建模流程。 | |
批量云端推理(数据仓库) | 使用 SQL 直接对数据仓库中已有数据执行推理,无需进行数据迁移。 | 直接在 BigQuery 中对 CRM 数据进行客户流失预测。 | |
实时云端推理(特定任务) | 无需开发或训练任何模型,即可轻松将高级 AI 功能(如视觉、语言、语音)集成到应用中。 | 自动实时翻译客户聊天消息,或从社交媒体帖子中分析客户情绪。 | |
实时和批量云端推理(大型模型) | 在为超大型、复杂的深度学习模型(尤其是大语言模型 [LLM])提供服务时,可实现最佳性能和成本效益。 | 为先进的生成式 AI 聊天机器人提供实时响应支持。 | |
边缘解决方案(例如 Coral、GDC Edge) | 边缘推理 | 通过直接在设备上运行模型,实现超低延迟、更强隐私保护或离线功能。 | 在智能摄像头上即时识别物体,无需将视频发送至云端。 |
为批量云端推理准备数据 | 高效处理并准备海量数据,以支持大规模批量推理任务。 | 在将拍字节级传感器数据输入预测性维护模型之前,先对其进行预处理。 |
Google Cloud 产品
支持的推理方法
非常适合以下场景
推理应用场景示例
所有推理类型(云端和混合环境)
能够获得极大的控制权和灵活性,以便在云端或混合环境中部署、管理和扩缩自定义容器化推理服务,这些服务通常使用专用硬件。
部署并扩缩定制的 AI 模型,用于在复杂工业系统中进行实时异常检测。
实时云端推理(无服务器)
部署容器化模型,支持自动扩缩至零并按请求计费,适用于高度波动的间歇性工作负载或简单的 Web 服务。
在流量波动较大的 Web 应用中部署中小型模型,以确保成本效益。
Vertex AI 是 Google Cloud 的统一 AI 平台。它提供构建、部署和管理机器学习模型的全面工具,是大多数云端推理需求的首选解决方案。
Vertex AI 功能 | 推理方法 | 非常适合以下场景 | 推理应用场景示例 |
实时云端推理 | 部署自定义模型,通过托管式端点获得实时低延迟预测。 | 为正在浏览网站的用户即时推荐产品。 | |
批量云端推理 | 经济高效地处理大型数据集,无需实时生成结果。 | 分析昨日所有客户交易,以检测欺诈模式。 | |
实时和批量云端推理(生成式 AI) | 快速利用强大的预训练模型处理常见或生成式 AI 任务,无需从头训练。 | 生成营销文案、提炼长文档摘要,或创建代码片段。 |
Vertex AI 功能
推理方法
非常适合以下场景
推理应用场景示例
准备好进一步提升您的 AI 推理技能了吗?以下是一些宝贵资源,可帮助您深入了解并快速上手 AI 推理: