张量处理单元 (TPU)

专为下一代 AI 打造

构建、优化以及扩缩训练、推理和强化学习工作负载,为自主推理智能体提供支持 

概览

张量处理单元 (TPU) 的十年发展历程

TPU 是专为 AI 工作负载(例如智能体、代码生成、大语言模型、媒体内容生成、合成语音、视觉服务、商品推荐引擎和个性化模型等)而定制设计的加速器。TPU 为 Gemini 以及所有 Google AI 赋能的应用(如 Google 搜索、Google 相册和 Google 地图)提供支持,这些应用服务超过 10 亿用户。

专为智能体 AI 打造

要转为使用智能体 AI,基础设施要能够进行多步推理和持续的强化学习。TPU 8i 利用扩展的片上 SRAM,将海量 KV 缓存完全托管在芯片上,打破了推理“内存壁垒”。这种架构与我们的 SparseCore 引擎相结合,可以分流通信任务,从而减少核心空闲时间。这样能实现低延迟且可预测的性能,为复杂的推理循环提供强大支持。

性能卓越,自由无阻

缩短前沿模型的训练时间,加快部署速度。Cloud TPU 可最大限度地提高有效吞吐量,确保几乎每个计算周期都用于主动学习。这得益于高速芯片间互连、光路交换和 Virgo 网络,因此加速器可以作为高度可靠的统一系统运行。

大规模实现可持续经济效益

TPU 专注于满足 AI 的计算需求,消除了多用途架构中的运营开销,旨在提高价值和能效。集成式电源管理功能可根据实时请求量进行动态调整,提供高效能功耗比,并可持续支持复杂的 AI 工作负载。

开放、灵活、可靠的运营

利用熟悉的库和工具,在开放式生态系统中构建应用。Cloud TPU 为 PyTorch 和 JAX 提供原生的高性能支持,并支持 vLLM 引擎以实现快速推理。使用 Google Kubernetes Engine (GKE) 可在全球集群中可靠地管理和扩缩这些部署。

Cloud TPU 版本

Cloud TPU 版本说明可用情况

TPU 8i

TPU 8i 针对训练后和推理进行了优化,与上一代相比,其性价比提高了 80%,可助力大型 MoE 模型实现低延迟推理。

即将发布

TPU 8t

TPU 8t 专为大规模预训练和嵌入密集型工作负载而构建,单个超级 Superpod 中包含 9,600 个芯片,与 Ironwood 相比,大规模训练的性价比提高了 2.7 倍。

即将发布

Ironwood

第 7 代节能型 TPU,专为大规模训练、推理和推断而设计。每个 Pod 配备 9,216 个液冷芯片,提供 42.5 exaflop(艾级浮点)的算力,每芯片的性能是 Trillium 的 4 倍。

Ironwood 现已在北美(中部)和欧洲(西部区域)正式发布

Trillium

第六代 TPU,提升了能效和峰值计算性能,可用于训练和推理。与上一代 TPU v5e 相比,能效高出 67%,每个芯片的峰值计算性能提升 4.7 倍。

Trillium 已在北美(美国东部区域)、欧洲(西欧区域)和亚洲(东北亚区域)全面上线

有关 Cloud TPU 版本的其他信息

TPU 8i

说明

TPU 8i 针对训练后和推理进行了优化,与上一代相比,其性价比提高了 80%,可助力大型 MoE 模型实现低延迟推理。

可用情况

即将发布

TPU 8t

说明

TPU 8t 专为大规模预训练和嵌入密集型工作负载而构建,单个超级 Superpod 中包含 9,600 个芯片,与 Ironwood 相比,大规模训练的性价比提高了 2.7 倍。

可用情况

即将发布

Ironwood

说明

第 7 代节能型 TPU,专为大规模训练、推理和推断而设计。每个 Pod 配备 9,216 个液冷芯片,提供 42.5 exaflop(艾级浮点)的算力,每芯片的性能是 Trillium 的 4 倍。

可用情况

Ironwood 现已在北美(中部)和欧洲(西部区域)正式发布

Trillium

说明

第六代 TPU,提升了能效和峰值计算性能,可用于训练和推理。与上一代 TPU v5e 相比,能效高出 67%,每个芯片的峰值计算性能提升 4.7 倍。

可用情况

Trillium 已在北美(美国东部区域)、欧洲(西欧区域)和亚洲(东北亚区域)全面上线

有关 Cloud TPU 版本的其他信息

工作方式

深入了解 Google Cloud TPU 的神奇之处,包括鲜为人知的数据中心内部视图。客户使用 Cloud TPU 运行一些大规模 AI 工作负载,而这种强大能力不仅仅来自芯片。本视频介绍了 TPU 系统的各个组成部分,包括数据中心网络、光路交换机、水冷系统、生物识别安全验证等。


替换为 TPU 视频!
常见用途

运行大规模 AI 训练工作负载

加快前沿模型的上市速度

缩短大型基础模型的预训练时间。TPU 8t 在单个 Pod 内提供高性能计算能力,并通过 Virgo 网络进行扩缩。该架构与快速存储访问和 Axion 驱动的 NUMA 隔离相结合,实现了高有效吞吐量,确保计算周期用于主动模型构建,而不会在数据传输或硬件重置期间闲置。

加快前沿模型的上市速度

缩短大型基础模型的预训练时间。TPU 8t 在单个 Pod 内提供高性能计算能力,并通过 Virgo 网络进行扩缩。该架构与快速存储访问和 Axion 驱动的 NUMA 隔离相结合,实现了高有效吞吐量,确保计算周期用于主动模型构建,而不会在数据传输或硬件重置期间闲置。

高效的训练后强化学习

高效扩缩强化学习工作负载

通过密集的训练后工作流,将基础模型构建成智能体。第 8 代 TPU 系统可快速处理连续的强化学习试验,奖励最佳推理路径,而不会出现前几代常见的周期延迟。这让您可以高效地对世界模型进行微调,让智能体能够在模拟环境中完善推理,然后再在真实环境中执行。


高效扩缩强化学习工作负载

通过密集的训练后工作流,将基础模型构建成智能体。第 8 代 TPU 系统可快速处理连续的强化学习试验,奖励最佳推理路径,而不会出现前几代常见的周期延迟。这让您可以高效地对世界模型进行微调,让智能体能够在模拟环境中完善推理,然后再在真实环境中执行。


大规模低延迟 AI 推理工作负载

高性能、经济高效的推理

打破推理内存壁垒。TPU 8i 扩展了片上 SRAM 和高带宽内存,将大容量 KV 缓存完全托管在芯片上。通过使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 来分流全局通信任务,这种架构显著降低了片上延迟,从而使主计算核心能够专注于纯粹的低延迟词元生成。

高性能、经济高效的推理

打破推理内存壁垒。TPU 8i 扩展了片上 SRAM 和高带宽内存,将大容量 KV 缓存完全托管在芯片上。通过使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 来分流全局通信任务,这种架构显著降低了片上延迟,从而使主计算核心能够专注于纯粹的低延迟词元生成。

开始概念验证

免费试用 Cloud TPU

快速了解如何使用 Cloud TPU

在 TPU 上运行 PyTorch

在 TPU 上运行 JAX

在 TPU 上使用 vLLM 部署模型

业务用例


自主推理智能体

TPU 提供所需的内存带宽和低延迟推理,可运行连续的多步推理循环,以实现实时编码助理、自主客户服务和安全运维。

基础模型和多模态生成式 AI

TPU 可提供持续的高吞吐量计算,能够高效构建和部署跨文本、图片、音频和视频模态的大型基础模型。

精密科学和医疗保健

TPU 可处理复杂的矩阵密集型数学运算,从而加速结构生物学、基因组测序和药物发现的计算密集型模拟。



物理 AI

构建与现实世界交互并适应现实世界的物理智能体。利用合成数据和真实数据,更快速、更高效地模拟和训练机器人、自主智能体和工业机器。