TPU v5e

本文档介绍了 Cloud TPU v5e 的架构和支持的配置。

TPU v5e 支持单主机和多主机训练以及单主机推理。使用 Sax 支持多主机推断。 如需了解详情,请参阅大语言模型服务

系统架构

每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 均有四个矩阵乘法单元 (MXU)、一个矢量单元和一个标量单元。

下图展示了 TPU v5e 芯片。

v5e 芯片的示意图

下表显示了 v5e 的密钥芯片规格及其值。

密钥芯片规格 v5e 值
每个芯片的峰值计算 (bf16) 197 个 TFLOP
每个芯片的峰值计算 (Int8) 393 个 TFLOP
HBM2 容量和带宽 16 GB、819 GBps
芯片间互连黑白 1600 Gbps

下表显示了 v5e 的 Pod 规范及其值。

关键 Pod 规范 v5e 值
TPU Pod 大小 256 个芯片
互连拓扑 2D 环
每个 Pod 的计算峰值 100 PetaOps(Int8)
每个 Pod 的全减少带宽 51.2 TB/秒
每个 Pod 的对分带宽 1.6 TB/秒
每个 Pod 的数据中心网络带宽 6.4 Tbps

配置

Cloud TPU v5e 是一款训练和推理(服务)产品。如需区分训练和推理环境,请在创建 GKE 节点池时将 AcceleratorTypeAcceleratorConfig 标志与 TPU API 或 --machine-type 标志结合使用。

训练作业针对吞吐量和可用性进行了优化,而处理作业针对延迟时间进行了优化。在为训练而预配的 TPU 上执行的训练作业可能具有较低的可用性;同样,在为训练预配的 TPU 上执行的服务作业可能会具有较长的延迟时间。

您可以使用 AcceleratorType 指定要使用的 TensorCore 数量。使用 gcloud CLI 或 Google Cloud 控制台创建 TPU 时,您可以指定 AcceleratorType。您为 AcceleratorType 指定的值是一个字符串,格式如下:v$VERSION_NUMBER-$CHIP_COUNT

您还可以使用 AcceleratorConfig 指定要使用的 TensorCore 数量。但是,由于 TPU v5e 没有自定义 2D 拓扑变体,因此使用 AcceleratorConfigAcceleratorType 没有区别。

如需使用 AcceleratorConfig 配置 TPU v5e,请使用 --version--topology 标志。将 --version 设置为您要使用的 TPU 版本,并将 --topology 设置为切片中 TPU 芯片的物理排列方式。您为 AcceleratorConfig 指定的值是一个格式为 AxB 的字符串,其中 AB 是每个方向的条状标签计数。

v5e 支持以下 2D 切片形状:

拓扑 TPU 芯片的数量 主机数量
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

v5e TPU 切片中的每个 TPU 虚拟机包含 1、4 或 8 个芯片。在 4 个芯片及更小的切片中,所有 TPU 芯片共享同一个非统一内存访问 (NUMA) 节点。

对于 8 芯片 v5e TPU 虚拟机,在 NUMA 分区内 CPU-TPU 通信更高效。例如,在下图中,CPU0-Chip0 通信比 CPU0-Chip4 通信快。

NUMA 节点通信

用于提供服务的 Cloud TPU v5e 类型

最多支持 8 个 v5e 芯片进行单主机传送。支持以下配置:1x1、2x2 和 2x4 切片。每个切片分别有 1、4 和 8 个芯片。

支持服务的 TPU v5e 配置:1x1、2x2 和 2x4。

如需为服务作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一:

AcceleratorType (TPU API) 机器类型 (GKE API)
v5litepod-1 ct5lp-hightpu-1t
v5litepod-4 ct5lp-hightpu-4t
v5litepod-8 ct5lp-hightpu-8t

系统支持使用 Sax 在 8 个以上的 v5e 芯片上进行传送(也称为多主机传送)。如需了解详情,请参阅大语言模型服务

用于训练的 Cloud TPU v5e 类型

最多支持对 256 个芯片进行训练。

如需为 v5e 训练作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一:

AcceleratorType (TPU API) 机器类型 (GKE API) 拓扑
v5litepod-16 ct5lp-hightpu-4t 4x4
v5litepod-32 ct5lp-hightpu-4t 4x8
v5litepod-64 ct5lp-hightpu-4t 8x8
v5litepod-128 ct5lp-hightpu-4t 8x16
v5litepod-256 ct5lp-hightpu-4t 16x16

v5e TPU 虚拟机类型比较:

虚拟机类型 n2d-48-24-v5lite-tpu n2d-192-112-v5lite-tpu n2d-384-224-v5lite-tpu
v5e 芯片数量 1 4 8
vCPU 的数量 24 112 224
RAM (GB) 48 192 384
NUMA 个节点的数量 1 1 2
适用于 v5litepod-1 v5litepod-4 v5litepod-8
中断

为了给需要更多芯片的工作负载腾出空间,调度器可能会抢占更少芯片的虚拟机。因此,8 芯片虚拟机可能会抢占 1 和 4 芯片虚拟机。