AI 推理是什么?

AI 推理是人工智能中负责“执行”的部分。这是训练完成的模型停止学习并开始工作的时刻,它会将所学知识转化为现实世界中的成果。

可以这样理解:训练就像教会 AI 一项新技能,而推理则是它实际应用这项技能完成任务。它接收新数据(如照片或文本),并即时生成输出,例如进行预测、生成图像或做出决策。这就是 AI 创造业务价值的地方。对于任何使用 AI 构建方案的人来说,掌握如何让推理更快速、可扩缩且具成本效益,是打造成功解决方案的关键。例如,企业开发者可在 Google Kubernetes Engine (GKE) 上利用 AI 推理构建一个系统,实时分析客户购买行为,并在结账时提供个性化折扣,从而提升销售额和客户满意度。

“AI 训练”“微调”“推理”与“服务”的对比

完整的 AI 生命周期涵盖从数据收集到长期监控的各个环节,而模型从创建到执行的核心过程可分为三个关键阶段。前两个阶段侧重学习,最后一个则是应用所学。

  • AI 训练是基础学习阶段。这是一个计算密集型过程,模型会分析庞大的数据集,以学习其中的模式和关系。目标是创建一个准确且知识丰富的模型。这需要强大的硬件加速器(如 GPU 和 TPU),过程可能持续数小时到数周。
  • AI 微调是训练的一种捷径。它基于强大的预训练模型,结合较小的专用数据集,将模型调整为适用于更具体的任务。相比从零开始训练模型,这种方式可以显著节省时间和资源。
  • AI 推理是执行阶段。它利用经过训练和微调的模型,快速预测“未曾见过”的新数据。与训练相比,单次预测所需的计算资源要少得多,但若要实时提供数百万次预测,则需要高度优化且可扩缩的基础设施。
  • AI 服务是指为推理目的部署和管理模型的过程。这通常包括打包模型、设置 API 端点,以及管理用于处理请求的基础设施。

下表总结了主要区别:

AI 训练

AI 微调

AI 推理

AI 服务

目标

从头开始构建新模型。

针对特定任务调整预训练模型。

利用训练好的模型进行预测。

部署并管理模型以处理推理请求。

流程

从大型数据集中迭代学习。

使用较小的数据集微调现有模型。

对新数据进行一次快速的“前向传递”。


封装模型并发布为 API 接口

数据

庞大的历史标记数据集。

较小的特定任务数据集。

实时的真实世界未标记数据。

不适用


业务重点

模型准确率和能力。

效率和自定义。

低延迟、可扩缩性和成本效益。

推理端点的可靠性、可伸缩性和易管理性。

AI 训练

AI 微调

AI 推理

AI 服务

目标

从头开始构建新模型。

针对特定任务调整预训练模型。

利用训练好的模型进行预测。

部署并管理模型以处理推理请求。

流程

从大型数据集中迭代学习。

使用较小的数据集微调现有模型。

对新数据进行一次快速的“前向传递”。


封装模型并发布为 API 接口

数据

庞大的历史标记数据集。

较小的特定任务数据集。

实时的真实世界未标记数据。

不适用


业务重点

模型准确率和能力。

效率和自定义。

低延迟、可扩缩性和成本效益。

推理端点的可靠性、可伸缩性和易管理性。

AI 推理的工作原理是什么?

从本质上讲,AI 推理涉及三个步骤,可将新数据转化为有用的输出。

我们通过一个简单的示例来了解一下:一个用于识别照片中物体的 AI 模型。

  1. 输入数据准备:首先,提供新数据,例如您刚刚提交的照片。这张照片会立即为模型做好准备,这里可能只需要将其大小调整为训练模型时所用的照片大小。
  2. 模型执行:接下来,AI 模型会分析准备好的照片。它会寻找与训练期间所学内容相匹配的模式,例如颜色、形状和纹理。这种快速分析称为“前向传递”,这是一个只读步骤,模型会应用其知识,而不会学习任何新知识。
  3. 输出生成:模型生成可行的结果。对于照片分析,这可能是概率得分(例如,图片包含“狗”的概率为 95%)。然后,此输出会发送到应用并显示给用户。

虽然单次推理很快,但为数百万用户提供实时服务会增加延迟和成本,并且需要优化硬件。AI 专用图形处理器 (GPU) 和 Google 的张量处理单元可以搭配 Google Kubernetes Engine 的编排功能一起使用,高效地处理这些任务,以提高吞吐量并降低延迟。

AI 推理的类型

云端推理:实现强大的功能和规模

这是最常见的方法,推理在数据中心强大的远程服务器上运行。云提供了巨大的可伸缩性和计算资源,非常适合处理海量数据集和复杂模型。在云端,通常有两种主要的推理模式:

  • 实时(在线)推理:在收到单个请求时立即处理,通常在几毫秒内完成。这对于需要即时反馈的交互式应用至关重要。
  • 批量(离线)推理:一次性处理大量数据,通常在不需要即时响应的场景使用。对于定期分析或计划任务,这是一种非常经济高效的方法。

边缘推理:兼顾速度和隐私

这种方法直接在生成数据的设备(例如智能手机或工业传感器)上执行推理。边缘推理无需往返云端,因此具有独特的优势:

  • 降低延迟:响应几乎是瞬时的,这对于自动驾驶汽车或实时制造检查等应用至关重要。
  • 增强隐私保护:敏感数据(例如医学影像、个人照片、视频 Feed)可以在设备端处理,而无需发送到云端。
  • 降低带宽费用:在本地处理数据可大幅减少需要上传和下载的数据量。
  • 离线功能:即使没有互联网连接,应用也能继续工作,可确保在偏远地区或断网环境下也能持续运行。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。

AI 推理比较

为了帮助您根据具体需求选择最佳方法,我们快速比较了每种 AI 推理类型的关键特征和应用场景:

功能

批量推理

实时推理

边缘推理

主要地点

云(数据中心)

云(数据中心)

本地设备(例如手机、IoT 传感器、机器人)

延迟时间/响应能力

高(在批处理完成后返回预测结果)


非常低(每个请求低至毫秒到秒)

极低(近乎瞬时,无需网络跃点)

数据量

大型数据集(例如 TB 级)

单个事件/请求

单个事件/请求(设备端)

数据流

数据发送到云端经过处理后返回结果

每个请求发送到云端、经过处理并返回

在设备上处理数据、在设备上使用结果

典型使用场景

大规模文档分类、隔夜财务分析、定期预测性维护

商品推荐、聊天机器人、实时翻译、实时欺诈提醒

自动驾驶、智能相机、离线语音助理、工业质量控制

主要优势

适合处理大型非紧急任务,成本效益高

为面向用户的应用实现即时响应

实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本

功能

批量推理

实时推理

边缘推理

主要地点

云(数据中心)

云(数据中心)

本地设备(例如手机、IoT 传感器、机器人)

延迟时间/响应能力

高(在批处理完成后返回预测结果)


非常低(每个请求低至毫秒到秒)

极低(近乎瞬时,无需网络跃点)

数据量

大型数据集(例如 TB 级)

单个事件/请求

单个事件/请求(设备端)

数据流

数据发送到云端经过处理后返回结果

每个请求发送到云端、经过处理并返回

在设备上处理数据、在设备上使用结果

典型使用场景

大规模文档分类、隔夜财务分析、定期预测性维护

商品推荐、聊天机器人、实时翻译、实时欺诈提醒

自动驾驶、智能相机、离线语音助理、工业质量控制

主要优势

适合处理大型非紧急任务,成本效益高

为面向用户的应用实现即时响应

实现极低延迟、增强了隐私保护、支持离线使用、降低了带宽成本

面向开发者的应用场景

AI 推理正在推动各行各业转型,实现更高水平的自动化、更智能的决策和创新型应用。对于企业开发者,推理在以下几个关键领域可带来切实的业务价值:

  • 即时分析金融交易、用户行为或系统日志,以识别并标记可疑活动。这有助于进行主动干预,以防范欺诈、洗钱或安全事故等问题。
  • 示例:一家信用卡公司使用推理功能在几毫秒内授权交易,并能够立即阻止潜在的欺诈性购买行为。


  • 根据用户过去的互动和实时情境预测用户偏好,从而为用户提供高度定制化的体验。
  • 示例:电子商务平台使用推理功能向购物者推荐商品,在线媒体服务根据用户的观影习惯推荐电影,从而提高互动度和销售额。


  • 部署 AI 模型,以自动执行日常任务、提供智能辅助或与用户进行大规模交互。
  • 示例:客户服务组织使用 AI 智能体处理常见咨询,让人工客服腾出时间处理复杂问题;工厂使用 AI 在装配线上进行自动质量检查。


  •  分析来自机械、基础设施或 IT 系统的传感器数据,以便在问题发生之前预测故障和需求或优化资源分配。
  • 示例:制造商使用推理功能来预测设备何时需要维护,从而最大限度地减少停机时间并延长资产使用寿命;物流公司根据实时交通预测优化路线。


  • 利用 AI 创作新内容(文本、代码、图片、音频),或深入了解现有的非结构化数据。
  • 示例:开发者使用代码生成模型来加快软件开发速度,营销团队利用 AI 来总结大型文档的内容和制作个性化广告文案。
您想解决什么问题?
What you'll get:
分步指南
参考架构
可用的预构建解决方案
此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

Google Cloud 能提供怎样的帮助

Google Cloud 提供了一整套工具和服务,可帮助开发者和组织高效地大规模构建、部署和管理 AI 推理工作负载。推理功能已深度集成到许多产品中:

相关产品和解决方案

Google Cloud 产品

支持的推理方法

非常适合以下场景

推理应用场景示例

所有推理类型(云端和混合环境)

能够获得极大的控制权和灵活性,以便在云端或混合环境中部署、管理和扩缩自定义容器化推理服务,这些服务通常使用专用硬件。

部署并扩缩定制的 AI 模型,用于在复杂工业系统中进行实时异常检测。

实时云端推理(无服务器)

部署容器化模型,支持自动扩缩至零并按请求计费,适用于高度波动的间歇性工作负载或简单的 Web 服务。


在流量波动较大的 Web 应用中部署中小型模型,以确保成本效益。


实时和批量云端推理

为广泛的 AI 模型和框架提供高性能且灵活的加速支持。

用于医疗诊断的高分辨率图像可被快速处理,也可加速复杂的金融建模流程。


批量云端推理(数据仓库)

使用 SQL 直接对数据仓库中已有数据执行推理,无需进行数据迁移。


直接在 BigQuery 中对 CRM 数据进行客户流失预测。


实时云端推理(特定任务)

无需开发或训练任何模型,即可轻松将高级 AI 功能(如视觉、语言、语音)集成到应用中。

自动实时翻译客户聊天消息,或从社交媒体帖子中分析客户情绪。


实时和批量云端推理(大型模型)

在为超大型、复杂的深度学习模型(尤其是大语言模型 [LLM])提供服务时,可实现最佳性能和成本效益。

为先进的生成式 AI 聊天机器人提供实时响应支持。


边缘解决方案(例如 Coral、GDC Edge)


边缘推理

通过直接在设备上运行模型,实现超低延迟、更强隐私保护或离线功能。


在智能摄像头上即时识别物体,无需将视频发送至云端。


为批量云端推理准备数据

高效处理并准备海量数据,以支持大规模批量推理任务。


在将拍字节级传感器数据输入预测性维护模型之前,先对其进行预处理。

Google Cloud 产品

支持的推理方法

非常适合以下场景

推理应用场景示例

所有推理类型(云端和混合环境)

能够获得极大的控制权和灵活性,以便在云端或混合环境中部署、管理和扩缩自定义容器化推理服务,这些服务通常使用专用硬件。

部署并扩缩定制的 AI 模型,用于在复杂工业系统中进行实时异常检测。

实时云端推理(无服务器)

部署容器化模型,支持自动扩缩至零并按请求计费,适用于高度波动的间歇性工作负载或简单的 Web 服务。


在流量波动较大的 Web 应用中部署中小型模型,以确保成本效益。


实时和批量云端推理

为广泛的 AI 模型和框架提供高性能且灵活的加速支持。

用于医疗诊断的高分辨率图像可被快速处理,也可加速复杂的金融建模流程。


批量云端推理(数据仓库)

使用 SQL 直接对数据仓库中已有数据执行推理,无需进行数据迁移。


直接在 BigQuery 中对 CRM 数据进行客户流失预测。


实时云端推理(特定任务)

无需开发或训练任何模型,即可轻松将高级 AI 功能(如视觉、语言、语音)集成到应用中。

自动实时翻译客户聊天消息,或从社交媒体帖子中分析客户情绪。


实时和批量云端推理(大型模型)

在为超大型、复杂的深度学习模型(尤其是大语言模型 [LLM])提供服务时,可实现最佳性能和成本效益。

为先进的生成式 AI 聊天机器人提供实时响应支持。


边缘解决方案(例如 Coral、GDC Edge)


边缘推理

通过直接在设备上运行模型,实现超低延迟、更强隐私保护或离线功能。


在智能摄像头上即时识别物体,无需将视频发送至云端。


为批量云端推理准备数据

高效处理并准备海量数据,以支持大规模批量推理任务。


在将拍字节级传感器数据输入预测性维护模型之前,先对其进行预处理。

Vertex AI

Vertex AI 是 Google Cloud 的统一 AI 平台。它提供构建、部署和管理机器学习模型的全面工具,是大多数云端推理需求的首选解决方案。

Vertex AI 功能

推理方法

非常适合以下场景

推理应用场景示例

实时云端推理

部署自定义模型,通过托管式端点获得实时低延迟预测。

为正在浏览网站的用户即时推荐产品。



批量云端推理

经济高效地处理大型数据集,无需实时生成结果。

分析昨日所有客户交易,以检测欺诈模式。

实时和批量云端推理(生成式 AI)

快速利用强大的预训练模型处理常见或生成式 AI 任务,无需从头训练。

生成营销文案、提炼长文档摘要,或创建代码片段。


Vertex AI 功能

推理方法

非常适合以下场景

推理应用场景示例

实时云端推理

部署自定义模型,通过托管式端点获得实时低延迟预测。

为正在浏览网站的用户即时推荐产品。



批量云端推理

经济高效地处理大型数据集,无需实时生成结果。

分析昨日所有客户交易,以检测欺诈模式。

实时和批量云端推理(生成式 AI)

快速利用强大的预训练模型处理常见或生成式 AI 任务,无需从头训练。

生成营销文案、提炼长文档摘要,或创建代码片段。


探索 AI 推理资源

准备好进一步提升您的 AI 推理技能了吗?以下是一些宝贵资源,可帮助您深入了解并快速上手 AI 推理:

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。