AI 推理是人工智能中负责“执行”的部分。这是训练完成的模型停止学习并开始工作的时刻,它会将所学知识转化为现实世界中的成果。
可以这样理解:训练就像教会 AI 一项新技能,而推理则是它实际应用这项技能完成任务。它接收新数据(如照片或文本),并即时生成输出,例如进行预测、生成图像或做出决策。这正是 AI 创造业务价值的地方。对于任何使用 AI 构建方案的人来说,掌握如何让推理更快速、可扩缩且具成本效益,是打造成功解决方案的关键。
完整的 AI 生命周期涵盖从数据收集到长期监控的各个环节,而模型从创建到执行的核心过程可分为三个关键阶段。前两个阶段侧重学习,最后一个则是应用所学。
下表总结了主要区别:
AI 训练 | AI 微调 | AI 推理 | AI 服务 | |
目标 | 从头开始构建新模型。 | 针对特定任务调整预训练模型。 | 利用训练好的模型进行预测。 | 部署并管理模型以处理推理请求。 |
流程 | 从大型数据集中迭代学习。 | 使用较小的数据集微调现有模型。 | 对新数据进行一次快速的“前向传递”。 | 封装模型并发布为 API 接口 |
数据 | 庞大的历史标记数据集。 | 较小的特定任务数据集。 | 实时的真实世界未标记数据。 | 不适用 |
业务重点 | 模型准确率和能力。 | 效率和自定义。 | 低延迟、可扩缩性和成本效益。 | 推理端点的可靠性、可伸缩性和易管理性。 |
AI 训练
AI 微调
AI 推理
AI 服务
目标
从头开始构建新模型。
针对特定任务调整预训练模型。
利用训练好的模型进行预测。
部署并管理模型以处理推理请求。
流程
从大型数据集中迭代学习。
使用较小的数据集微调现有模型。
对新数据进行一次快速的“前向传递”。
封装模型并发布为 API 接口
数据
庞大的历史标记数据集。
较小的特定任务数据集。
实时的真实世界未标记数据。
不适用
业务重点
模型准确率和能力。
效率和自定义。
低延迟、可扩缩性和成本效益。
推理端点的可靠性、可伸缩性和易管理性。
从本质上讲,AI 推理涉及三个步骤,可将新数据转化为有用的输出。
我们通过一个简单的示例来了解一下:一个用于识别照片中物体的 AI 模型。
虽然单次推理很快,但为数百万用户提供实时服务会增加延迟和成本,并且需要优化硬件。AI 专用图形处理器 (GPU) 和 Google 的张量处理单元可以搭配 Google Kubernetes Engine 的编排功能一起使用,高效地处理这些任务,以提高吞吐量并降低延迟。
这是最常见的方法,推理在数据中心强大的远程服务器上运行。云提供了巨大的可伸缩性和计算资源,非常适合处理海量数据集和复杂模型。在云端,通常有两种主要的推理模式:
这种方法直接在生成数据的设备(例如智能手机或工业传感器)上执行推理。边缘推理无需往返云端,因此具有独特的优势:
为了帮助您根据具体需求选择最佳方法,我们快速比较了每种 AI 推理类型的关键特征和应用场景:
功能 | 批量推理 | 实时推理 | 边缘推理 |
主要地点 | 云(数据中心) | 云(数据中心) | 本地设备(例如手机、IoT 传感器、机器人) |
延迟时间/响应能力 | 高(在批处理完成后返回预测结果) | 非常低(每个请求低至毫秒到秒) | 极低(近乎瞬时,无需网络跃点) |
数据量 | 大型数据集(例如 TB 级) | 单个事件/请求 | 单个事件/请求(设备端) |
数据流 | 数据发送到云端经过处理后返回结果 | 每个请求发送到云端、经过处理并返回 | 在设备上处理数据、在设备上使用结果 |
典型使用场景 | 大规模文档分类、隔夜财务分析、定期预测性维护 | 商品推荐、聊天机器人、实时翻译、实时欺诈提醒 | 自动驾驶、智能相机、离线语音助理、工业质量控制 |
主要优势 | 适合处理大型非紧急任务,成本效益高 | 为面向用户的应用实现即时响应 | 实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本 |
功能
批量推理
实时推理
边缘推理
主要地点
云(数据中心)
云(数据中心)
本地设备(例如手机、IoT 传感器、机器人)
延迟时间/响应能力
高(在批处理完成后返回预测结果)
非常低(每个请求低至毫秒到秒)
极低(近乎瞬时,无需网络跃点)
数据量
大型数据集(例如 TB 级)
单个事件/请求
单个事件/请求(设备端)
数据流
数据发送到云端经过处理后返回结果
每个请求发送到云端、经过处理并返回
在设备上处理数据、在设备上使用结果
典型使用场景
大规模文档分类、隔夜财务分析、定期预测性维护
商品推荐、聊天机器人、实时翻译、实时欺诈提醒
自动驾驶、智能相机、离线语音助理、工业质量控制
主要优势
适合处理大型非紧急任务,成本效益高
为面向用户的应用实现即时响应
实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本
AI 推理正在推动各行各业转型,实现更高水平的自动化、更智能的决策和创新型应用。对于企业开发者,推理在以下几个关键领域可带来切实的业务价值:
AI 推理面临着一系列独特的技术挑战,包括管理延迟、控制成本和确保可伸缩性。Google Cloud 为推理提供了灵活的途径,让您可以根据模型的复杂性、性能需求和运营能力选择合适的工具。您可以从全托管式解决方案开始,随着需求的演变,逐步采用自定义程度更高的基础设施。
这种方法非常适合想要快速集成强大的 AI 功能的各种技能水平的开发者,包括 AI 新手。只需进行简单的 API 调用,无需管理任何模型或基础设施。
通过一个简单的 API 端点即可使用 Google 的 Gemini 模型和一系列开源模型。它负责处理托管和扩缩的复杂性,因此您可以专注于应用,并使生成式 AI 任务获得出色的结果。 |
通过一个简单的 API 端点即可使用 Google 的 Gemini 模型和一系列开源模型。它负责处理托管和扩缩的复杂性,因此您可以专注于应用,并使生成式 AI 任务获得出色的结果。
此选项适合已经构建了自定义模型的开发者。您可以将其部署到 Google Cloud 的托管式服务,这意味着您无需自行处理复杂的服务器设置或编排。您可以专注于模型,而无需担心基础设施。
Vertex AI Prediction 是一项托管式服务,可将机器学习模型部署为可扩缩的端点,并使用 GPU 等硬件加速器快速处理实时数据和大批量数据。 | |
部署容器化模型,支持自动缩减至零并按请求计费,这适用于高度波动的间歇性工作负载或简单的 Web 服务。 |
Vertex AI Prediction 是一项托管式服务,可将机器学习模型部署为可扩缩的端点,并使用 GPU 等硬件加速器快速处理实时数据和大批量数据。
部署容器化模型,支持自动缩减至零并按请求计费,这适用于高度波动的间歇性工作负载或简单的 Web 服务。
为开发者和 MLOps 提供精细的控制和灵活性,以便在云端或混合环境中部署、管理和扩缩自定义容器化推理服务,这些服务通常使用专用硬件。
GKE 可对硬件(包括 CPU、GPU 和 TPU)进行精细控制,非常适合自定义和优化超大型或复杂机器学习模型服务的性能和成本。 |
GKE 可对硬件(包括 CPU、GPU 和 TPU)进行精细控制,非常适合自定义和优化超大型或复杂机器学习模型服务的性能和成本。
如果您使用 SQL,现在就可以直接在数据所在的位置从 AI 模型获取预测结果。这样就无需将数据移至单独的平台,从而简化工作流。
使用 BigQuery 进行推理时,您可以使用简单的 SQL 命令直接对数据运行机器学习模型,无需移动数据,从而降低复杂性和延迟时间。这是一种非常高效的批处理方法,可用于处理客户群细分或需求预测等任务,尤其是在数据已存储在 BigQuery 中的情况下。 |
使用 BigQuery 进行推理时,您可以使用简单的 SQL 命令直接对数据运行机器学习模型,无需移动数据,从而降低复杂性和延迟时间。这是一种非常高效的批处理方法,可用于处理客户群细分或需求预测等任务,尤其是在数据已存储在 BigQuery 中的情况下。
准备好进一步提升您的 AI 推理技能了吗?以下是一些宝贵资源,可帮助您深入了解并快速上手 AI 推理: