概览
TPU 是专为 AI 工作负载(例如智能体、代码生成、大语言模型、媒体内容生成、合成语音、视觉服务、商品推荐引擎和个性化模型等)而定制设计的加速器。TPU 为 Gemini 以及所有 Google AI 赋能的应用(如 Google 搜索、Google 相册和 Google 地图)提供支持,这些应用服务超过 10 亿用户。
要转为使用智能体 AI,基础设施要能够进行多步推理和持续的强化学习。TPU 8i 利用扩展的片上 SRAM,将海量 KV 缓存完全托管在芯片上,打破了推理“内存壁垒”。这种架构与我们的 SparseCore 引擎相结合,可以分流通信任务,从而减少核心空闲时间。这样能实现低延迟且可预测的性能,为复杂的推理循环提供强大支持。
缩短前沿模型的训练时间,加快部署速度。Cloud TPU 可最大限度地提高有效吞吐量,确保几乎每个计算周期都用于主动学习。这得益于高速芯片间互连、光路交换和 Virgo 网络,因此加速器可以作为高度可靠的统一系统运行。
TPU 专注于满足 AI 的计算需求,消除了多用途架构中的运营开销,旨在提高价值和能效。集成式电源管理功能可根据实时请求量进行动态调整,提供高效能功耗比,并可持续支持复杂的 AI 工作负载。
利用熟悉的库和工具,在开放式生态系统中构建应用。Cloud TPU 为 PyTorch 和 JAX 提供原生的高性能支持,并支持 vLLM 引擎以实现快速推理。使用 Google Kubernetes Engine (GKE) 可在全球集群中可靠地管理和扩缩这些部署。
Cloud TPU 版本
| Cloud TPU 版本 | 说明 | 可用情况 |
|---|---|---|
TPU 8i | TPU 8i 针对训练后和推理进行了优化,与上一代相比,其性价比提高了 80%,可助力大型 MoE 模型实现低延迟推理。 | 即将发布 |
TPU 8t | TPU 8t 专为大规模预训练和嵌入密集型工作负载而构建,单个超级 Superpod 中包含 9,600 个芯片,与 Ironwood 相比,大规模训练的性价比提高了 2.7 倍。 | 即将发布 |
Ironwood | 第 7 代节能型 TPU,专为大规模训练、推理和推断而设计。每个 Pod 配备 9,216 个液冷芯片,提供 42.5 exaflop(艾级浮点)的算力,每芯片的性能是 Trillium 的 4 倍。 | Ironwood 现已在北美(中部)和欧洲(西部区域)正式发布 |
Trillium | 第六代 TPU,提升了能效和峰值计算性能,可用于训练和推理。与上一代 TPU v5e 相比,能效高出 67%,每个芯片的峰值计算性能提升 4.7 倍。 | Trillium 已在北美(美国东部区域)、欧洲(西欧区域)和亚洲(东北亚区域)全面上线 |
有关 Cloud TPU 版本的其他信息
TPU 8i
TPU 8i 针对训练后和推理进行了优化,与上一代相比,其性价比提高了 80%,可助力大型 MoE 模型实现低延迟推理。
即将发布
TPU 8t
TPU 8t 专为大规模预训练和嵌入密集型工作负载而构建,单个超级 Superpod 中包含 9,600 个芯片,与 Ironwood 相比,大规模训练的性价比提高了 2.7 倍。
即将发布
Ironwood
第 7 代节能型 TPU,专为大规模训练、推理和推断而设计。每个 Pod 配备 9,216 个液冷芯片,提供 42.5 exaflop(艾级浮点)的算力,每芯片的性能是 Trillium 的 4 倍。
Ironwood 现已在北美(中部)和欧洲(西部区域)正式发布
Trillium
第六代 TPU,提升了能效和峰值计算性能,可用于训练和推理。与上一代 TPU v5e 相比,能效高出 67%,每个芯片的峰值计算性能提升 4.7 倍。
Trillium 已在北美(美国东部区域)、欧洲(西欧区域)和亚洲(东北亚区域)全面上线
有关 Cloud TPU 版本的其他信息
缩短大型基础模型的预训练时间。TPU 8t 在单个 Pod 内提供高性能计算能力,并通过 Virgo 网络进行扩缩。该架构与快速存储访问和 Axion 驱动的 NUMA 隔离相结合,实现了高有效吞吐量,确保计算周期用于主动模型构建,而不会在数据传输或硬件重置期间闲置。
缩短大型基础模型的预训练时间。TPU 8t 在单个 Pod 内提供高性能计算能力,并通过 Virgo 网络进行扩缩。该架构与快速存储访问和 Axion 驱动的 NUMA 隔离相结合,实现了高有效吞吐量,确保计算周期用于主动模型构建,而不会在数据传输或硬件重置期间闲置。
通过密集的训练后工作流,将基础模型构建成智能体。第 8 代 TPU 系统可快速处理连续的强化学习试验,奖励最佳推理路径,而不会出现前几代常见的周期延迟。这让您可以高效地对世界模型进行微调,让智能体能够在模拟环境中完善推理,然后再在真实环境中执行。
通过密集的训练后工作流,将基础模型构建成智能体。第 8 代 TPU 系统可快速处理连续的强化学习试验,奖励最佳推理路径,而不会出现前几代常见的周期延迟。这让您可以高效地对世界模型进行微调,让智能体能够在模拟环境中完善推理,然后再在真实环境中执行。
打破推理内存壁垒。TPU 8i 扩展了片上 SRAM 和高带宽内存,将大容量 KV 缓存完全托管在芯片上。通过使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 来分流全局通信任务,这种架构显著降低了片上延迟,从而使主计算核心能够专注于纯粹的低延迟词元生成。
打破推理内存壁垒。TPU 8i 扩展了片上 SRAM 和高带宽内存,将大容量 KV 缓存完全托管在芯片上。通过使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 来分流全局通信任务,这种架构显著降低了片上延迟,从而使主计算核心能够专注于纯粹的低延迟词元生成。
业务用例
自主推理智能体
TPU 提供所需的内存带宽和低延迟推理,可运行连续的多步推理循环,以实现实时编码助理、自主客户服务和安全运维。
基础模型和多模态生成式 AI
TPU 可提供持续的高吞吐量计算,能够高效构建和部署跨文本、图片、音频和视频模态的大型基础模型。
精密科学和医疗保健
TPU 可处理复杂的矩阵密集型数学运算,从而加速结构生物学、基因组测序和药物发现的计算密集型模拟。
物理 AI
构建与现实世界交互并适应现实世界的物理智能体。利用合成数据和真实数据,更快速、更高效地模拟和训练机器人、自主智能体和工业机器。