TPU v5e
本文档介绍了 Cloud TPU v5e 的架构和支持的配置。
TPU v5e 支持单主机和多主机训练以及单主机推理。使用 Sax 支持多主机推断。 如需了解详情,请参阅大语言模型服务。
系统架构
每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 均有四个矩阵乘法单元 (MXU)、一个矢量单元和一个标量单元。
下图展示了 TPU v5e 芯片。
下表显示了 v5e 的密钥芯片规格及其值。
密钥芯片规格 | v5e 值 |
每个芯片的峰值计算 (bf16) | 197 个 TFLOP |
每个芯片的峰值计算 (Int8) | 393 个 TFLOP |
HBM2 容量和带宽 | 16 GB、819 GBps |
芯片间互连黑白 | 1600 Gbps |
下表显示了 v5e 的 Pod 规范及其值。
关键 Pod 规范 | v5e 值 |
TPU Pod 大小 | 256 个芯片 |
互连拓扑 | 2D 环 |
每个 Pod 的计算峰值 | 100 PetaOps(Int8) |
每个 Pod 的全减少带宽 | 51.2 TB/秒 |
每个 Pod 的对分带宽 | 1.6 TB/秒 |
每个 Pod 的数据中心网络带宽 | 6.4 Tbps |
配置
Cloud TPU v5e 是一款训练和推理(服务)产品。如需区分训练和推理环境,请在创建 GKE 节点池时将 AcceleratorType
或 AcceleratorConfig
标志与 TPU API 或 --machine-type
标志结合使用。
训练作业针对吞吐量和可用性进行了优化,而处理作业针对延迟时间进行了优化。在为训练而预配的 TPU 上执行的训练作业可能具有较低的可用性;同样,在为训练预配的 TPU 上执行的服务作业可能会具有较长的延迟时间。
您可以使用 AcceleratorType
指定要使用的 TensorCore 数量。使用 gcloud CLI 或 Google Cloud 控制台创建 TPU 时,您可以指定 AcceleratorType
。您为 AcceleratorType
指定的值是一个字符串,格式如下:v$VERSION_NUMBER-$CHIP_COUNT
。
您还可以使用 AcceleratorConfig
指定要使用的 TensorCore 数量。但是,由于 TPU v5e 没有自定义 2D 拓扑变体,因此使用 AcceleratorConfig
和 AcceleratorType
没有区别。
如需使用 AcceleratorConfig
配置 TPU v5e,请使用 --version
和 --topology
标志。将 --version
设置为您要使用的 TPU 版本,并将 --topology
设置为切片中 TPU 芯片的物理排列方式。您为 AcceleratorConfig
指定的值是一个格式为 AxB
的字符串,其中 A
和 B
是每个方向的条状标签计数。
v5e 支持以下 2D 切片形状:
拓扑 | TPU 芯片的数量 | 主机数量 |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
v5e TPU 切片中的每个 TPU 虚拟机包含 1、4 或 8 个芯片。在 4 个芯片及更小的切片中,所有 TPU 芯片共享同一个非统一内存访问 (NUMA) 节点。
对于 8 芯片 v5e TPU 虚拟机,在 NUMA 分区内 CPU-TPU 通信更高效。例如,在下图中,CPU0-Chip0
通信比 CPU0-Chip4
通信快。
用于提供服务的 Cloud TPU v5e 类型
最多支持 8 个 v5e 芯片进行单主机传送。支持以下配置:1x1、2x2 和 2x4 切片。每个切片分别有 1、4 和 8 个芯片。
如需为服务作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一:
AcceleratorType (TPU API) | 机器类型 (GKE API) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
系统支持使用 Sax 在 8 个以上的 v5e 芯片上进行传送(也称为多主机传送)。如需了解详情,请参阅大语言模型服务。
用于训练的 Cloud TPU v5e 类型
最多支持对 256 个芯片进行训练。
如需为 v5e 训练作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下加速器类型之一:
AcceleratorType (TPU API) | 机器类型 (GKE API) | 拓扑 |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
v5e TPU 虚拟机类型比较:
虚拟机类型 | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
v5e 芯片数量 | 1 | 4 | 8 |
vCPU 的数量 | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
NUMA 个节点的数量 | 1 | 1 | 2 |
适用于 | v5litepod-1 | v5litepod-4 | v5litepod-8 |
中断 | 高 | 中 | 低 |
为了给需要更多芯片的工作负载腾出空间,调度器可能会抢占更少芯片的虚拟机。因此,8 芯片虚拟机可能会抢占 1 和 4 芯片虚拟机。