TPU v5p

本文档介绍了 Cloud TPU v5p。

系统架构

本部分介绍了特定于 v5p 版本的系统架构。每个 TensorCore 有四个矩阵乘法单元 (MXU)、一个矢量单元和一个标量 单位。

一个 v5p Pod 中有 8960 个芯片。可安排的最大作业数 是一个 96 立方体(6144 芯片)作业。

下表显示了 v5p 的关键规范。

密钥规范 v5p 值
每个芯片的计算峰值 (bf16) 459 个 TFLOP
HBM2e 容量和带宽 95GB、2765 GBps
TPU Pod 大小 8960 芯片
互连拓扑 3D 环面 *
芯片间互连带宽 4800 Gbps

配置

TPU v5p Pod 由 8960 个芯片组成,这些芯片通过可重新配置功能相互连接 或高速链接利用 TPU v5p 的灵活网络功能, 。创建 TPU 切片时 使用 gcloud compute tpus tpu-vm create 命令,您可以指定 使用 AcceleratorType 指定其类型和形状 或 AcceleratorConfig 参数。

下表显示了 v5p 支持的最常用单切片形状,以及大多数(但非全部) 大于 1 个立方体的完整立方体。v5p 形状的最大尺寸为 16x16x24 (6144 个芯片,96 个立方体)。

切片形状 虚拟机大小 核心数量 条状标签数量 机器数量 立方数 是否支持 Twisted?
2x2x1 完整主机 8 4 1
2x2x2 完整主机 16 8 2
2x4x4 完整主机 64 32 8
4x4x4 完整主机 128 64 16 1
4x4x8 完整主机 256 128 32 2
4x8x8 完整主机 512 256 64 4
8x8x8 完整主机 1,024 512 128 8
8x8x16 完整主机 2048 年 1,024 256 16
8x16x16 完整主机 4096 2048 年 512 32
16x16x16 完整主机 8,192 4096 1,024 64
16x16x24 完整主机 12,288 6,144 1536 年 96

单个切片训练最多支持 6144 个芯片。可扩展 到 18432 个条状标签。请参阅 Cloud TPU 多切片概览,了解多切片的详细信息。

使用 AcceleratorType 参数

分配 TPU 资源时,可以使用 --accelerator-type 参数来 指定切片中 TensorCore 的数量。“--accelerator-type”现为 带格式的字符串 “v$VERSION_NUMBERp-$CORES_COUNT”。 例如,v5p-32 指定具有 32 个 TensorCore(16 个芯片)的 v5p TPU 切片。

如需为 v5p 训练作业预配 TPU,请使用以下方式之一 加速器类型:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128(一个完整的立方体/机架)
  • v5p-256(2 个立方体)
  • v5p-512
  • v5p-1024 ... v5p-12288

使用 AcceleratorConfig 参数

对于 v5p 及更高版本的 Cloud TPU,AcceleratorConfig 使用方式与使用 Cloud TPU v4 大致相同 区别在于 不要将 TPU 类型指定为 --type=v4,而是将其指定为 您使用的 TPU 版本(例如,用于 v5p 版本的 --type=v5p)。

Cloud TPU ICI 弹性

ICI 弹性有助于提高光链路的容错能力, 用于在立方体之间连接 TPU 的光学电路交换机 (OCS)。 (立方体内的 ICI 连接使用的是不受影响的铜制链路)。 ICI 弹性允许 ICI 连接围绕 OCS 和光学 ICI 进行路由 错误。因此,它可以提高 TPU 的调度可用性 但 ICI 性能会暂时下降。

与 Cloud TPU v4 类似,ICI 弹性默认处于启用状态 为一个立方体或更大的 v5p 切片:

  • v5p-128(在指定加速器类型时)
  • 4x4x4(指定加速器配置时)

虚拟机、主机和切片属性

属性 TPU 中的值
v5p 芯片数量 4
vCPU 数量 208(如果使用 NUMA 绑定来避免跨 NUMA 性能损失,则只有一半可用)
RAM (GB) 448(如果使用 NUMA 绑定来避免跨 NUMA 性能损失,则只有一半可用)
NUMA 节点数量 2
NIC 吞吐量 (Gbps) 200

TensorCore 数量、芯片数量、主机/虚拟机数量与 一个 Pod 中的多个立方体:

核心数 薯片 主机/虚拟机 立方体
主机 8 4 1
Cube(也称为机架) 128 64 16 个 1
支持的最大 Slice 12,288 6,144 1536 年 96 个
v5p 完整 Pod 17920 年 8960 2,240 140 个