Cloud TPU 多切片概览
Cloud TPU Multislice 是一项全栈性能伸缩技术,可让训练作业使用单个 Pod 中的多个 TPU slice,或使用多个 Pod 中的 slice 并采用简单的数据并行处理。对于 TPU v4 芯片,这意味着训练作业在单次运行中可以使用超过 4096 个芯片。对于需要的芯片数量少于 4096 个的训练作业,单个 slice 可以提供最佳性能。不过,多个较小的 slice 更易于获取,因此将 Multislice 与较小的 slice 搭配使用时,启动时间会更短。
在多切片配置中部署时,每个切片中的 TPU 芯片通过芯片间互连 (ICI) 进行通信。不同切片中的 TPU 芯片通过将数据传输到 CPU(主机)进行通信,后者再通过数据中心网络 (DCN) 传输数据。
开发者无需编写代码即可实现 slice 间 DCN 通信。XLA 编译器会为您生成该代码,并将通信与计算重叠,以实现最高性能。
概念
- 加速器类型
- 构成多切片的每个 TPU 切片的形状。多 slice 请求中的每个 slice 都采用相同的加速器类型。加速器类型由 TPU 类型(v4 或 v5e)和 TensorCore 数量组成。例如,
v4-128
指定具有 128 个 TensorCore 的 TPU v4。 - 自动修复
- 当 slice 遇到维护事件、抢占或硬件故障时,Cloud TPU 会创建新的 slice。在极少数情况下,如果资源不足以创建新的 slice,则在硬件可用之前,创建操作将不会完成。创建新 slice 后,多 slice 环境中的所有其他 slice 都会重启,以便继续训练。如果启动脚本配置正确,训练脚本无需用户干预即可自动重新启动,并从最新的检查点加载和恢复。
- 数据集
- 模型用于训练或推理的数据。
- 数据中心网络 (DCN)
- 与 ICI 相比,延迟时间更长、吞吐量较低的网络,用于在多切片配置中连接 TPU 切片。
- 群组调度
- 同时预配所有 TPU slice 时,保证所有 slice 都成功预配或都未成功预配。
- 主机
- 主机是运行虚拟机的物理计算机。一台主机一次最多只能运行 4 个虚拟机。每个虚拟机都有一个专用 TPU。
- 推断
- 将预训练的机器学习模型加载到主机上,并对数据进行预测。
- 芯片间互连 (ICI)
- 用于连接 TPU Pod 中 TPU 的高速低延迟内部链接。
- 多层切片
- 两个或更多个可通过 DCN 通信的 TPU 芯片切片。
- 节点
- 在多切片上下文中,节点是指单个 TPU 切片。多切片中的每个 TPU 切片都会分配一个节点 ID。
- Pod
- 一组通过专用 ICI 网络接口连接的 TPU 芯片。借助 Pod,您可以跨多个 TPU 分配处理负载。
- 加入队列的资源 (QR)
- TPU 资源的表示法,用于将单切片或多切片 TPU 环境的请求加入队列并进行管理。
- 启动脚本
- 一个标准的 Compute Engine 启动脚本,每次虚拟机启动或重新启动时都会运行。对于多切片,此值在二维码创建请求中指定。如需详细了解 Cloud TPU 启动脚本,请参阅管理 TPU 资源。
- TPU 切片
- TPU Pod 的逻辑子部分,由 TPU 芯片组成。切片中的所有芯片都使用 ICI 网络相互通信。
- TPU 虚拟机
- 运行 Linux 且有权访问底层 TPU 的虚拟机。对于 v4 TPU,每个 TPU 虚拟机都可以直接访问四个芯片。有时,我们会将 TPU 虚拟机称为“工作器”。
- Tensor
- 一种数据结构,用于在机器学习模型中表示多维数据。
- 张量处理单元 (TPU)
- Google 内部开发的机器学习加速芯片。它们旨在为矩阵乘法等关键机器学习任务提供快速且节能的计算。
- Cloud TPU 容量类型
您可以使用不同类型的容量创建 TPU(请参阅TPU 价格运作方式中的“使用选项”):
- 预订:如需使用预订功能,您必须与 Google 签订预订协议。创建资源时,请使用
--reserved
标志。 - Spot:使用 Spot 虚拟机定位到抢占式配额。系统可能会抢占您的资源,以便为更高优先级作业的请求留出空间。创建资源时,请使用
--spot
标志。 - 按需:定位到按需配额,无需预留,也不会被抢占。TPU 请求将加入 Cloud TPU 提供的按需配额队列,但无法保证有资源可用。默认处于选中状态,无需标志。
- 预订:如需使用预订功能,您必须与 Google 签订预订协议。创建资源时,请使用
开始使用
如果您之前从未使用过 TPU,请先安装 Google Cloud CLI,然后设置 Cloud TPU 环境。如需使用多 Slice,您的 TPU 资源必须作为已排队的资源进行管理。
如果您是现有的 TPU v4 用户,并且有预留,则可能需要将预留迁移到新的预留系统。如需了解详情,请与您的 Google Cloud 客户代表联系。
入门示例
本教程使用 MaxText GitHub 代码库中的代码。MaxText 是一个高性能、任意可伸缩、开源且经过充分测试的基本 LLM,采用 Python 和 Jax 编写。MaxText 旨在高效地在 Cloud TPU 上进行训练。
shardings.py
中的代码旨在帮助您开始尝试不同的并行处理选项。例如,数据并行、完全分片数据并行 (FSDP) 和张量并行。代码可从单个 slice 扩展到多 slice 环境。
ICI 并行
ICI 是指用于连接单个切片中的 TPU 的高速互连。ICI 分片对应于切片内的分片。shardings.py
提供三个 ICI 并行处理参数:
ici_data_parallelism
ici_fsdp_parallelism
ici_tensor_parallelism
您为这些参数指定的值决定了每个并行处理方法的分片数量。
这些输入必须受到约束,以便 ici_data_parallelism * ici_fsdp_parallelism * ici_tensor_parallelism
等于切片中的芯片数量。
下表显示了 v4-8 中可用的四个芯片的 ICI 并行处理的示例用户输入:
ici_data_parallelism | ici_fsdp_parallelism | ici_tensor_parallelism | |
4 路 FSDP | 1 | 4 | 1 |
4 路张量并行处理 | 1 | 1 | 4 |
双向 FSDP + 双向张量并行处理 | 1 | 2 | 2 |
请注意,在大多数情况下,ici_data_parallelism
应保持为 1,因为 ICI 网络足够快,几乎总是优先使用 FSDP 而非数据并行。
本例假定您熟悉如何在单个 TPU 切片上运行代码,例如使用 JAX 在 Cloud TPU 虚拟机上运行计算。此示例展示了如何在单个 slice 上运行 shardings.py
。
设置环境:
$ gcloud auth login $ gcloud config set project your-project-id $ gcloud config set compute/zone your-zone
为
gcloud
创建 SSH 密钥。我们建议您将密码留空(运行以下命令后,按两次 Enter 键)。如果系统提示google_compute_engine
文件已存在,请替换现有版本。$ ssh-keygen -f ~/.ssh/google_compute_engine
预配 TPU:
gcloud
$ gcloud compute tpus queued-resources \ create YOUR_QR_ID \ --accelerator-type your-accelerator-type \ --runtime-version tpu-ubuntu2204-base \ --node-id qr-id \ [--reserved |--spot]
命令标志说明
YOUR_QR_ID
- 一个用户定义的字符串,用于标识二维码请求。
accelerator-type
- 加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
runtime-version
- Cloud TPU 软件版本。
node-id
- 为响应二维码请求而创建的 TPU 资源的 ID。
reserved
- 在创建 slice 时使用预留。
spot
- 在创建 Slice 时使用 Spot 虚拟机。
Google Cloud CLI 不支持所有创建二维码选项,例如代码。如需了解详情,请参阅创建二维码。
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击创建 TPU。
在名称字段中,为 TPU 输入名称。
在“可用区”框中,选择要创建 TPU 的可用区。
在 TPU 类型框中,选择加速器类型。加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
在 TPU 软件版本框中,选择软件版本。创建 Cloud TPU 虚拟机时,TPU 软件版本指定了要安装的 TPU 运行时的版本。如需了解详情,请参阅 TPU 虚拟机映像。
点击启用队列功能切换开关。
在已加入队列的资源名称字段中,为已加入队列的资源请求输入名称。
点击创建以创建队列中的资源请求。
等待队列中的资源处于
ACTIVE
状态,这表示工作器节点处于READY
状态。队列化资源预配开始后,可能需要 1 到 5 分钟才能完成,具体取决于队列化资源的大小。您可以使用 gcloud CLI 或 Google Cloud 控制台检查队列中的资源请求的状态:gcloud
$ gcloud compute tpus queued-resources \ list --filter=YOUR_QR_ID
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
点击已加入队列的资源请求的名称。
v4-8 切片包含单个 TPU 虚拟机。使用 SSH 连接到 TPU 虚拟机:
$ gcloud compute tpus tpu-vm ssh YOUR_QR_ID
将 MaxText(包括
shardings.py
)克隆到 TPU 虚拟机。在 MaxText 代码库目录中,运行设置脚本以在 TPU slice 上安装 JAX 和其他依赖项。设置脚本需要几分钟时间才能运行。
$ bash setup.sh
运行以下命令,在 TPU 分块上运行
shardings.py
。$ python3 pedagogical_examples/shardings.py \ --ici_fsdp_parallelism 4 \ --batch_size 131072 \ --embedding_dimension 2048
您可以在日志中查看结果。您的 TPU 应该每秒可达到约 260 TFLOP 的性能,或者 FLOPS 利用率高达 90%以上!在本例中,我们选择了 TPU 高带宽内存 (HBM) 中可容纳的大致最大批量。
您可以随意探索 ICI 之外的其他分片策略,例如,您可以尝试以下组合:
$ python3 pedagogical_examples/shardings.py \ --ici_tensor_parallelism 4 \ --batch_size 131072 \ --embedding_dimension 2048
完成后,删除已排队的资源和 TPU slice。您应在设置 slice 的环境中运行这些清理步骤(先运行
exit
以退出 SSH 会话)。删除操作需要两到五分钟才能完成。如果您使用的是 gcloud CLI,则可以使用可选的--async
标志在后台运行此命令。gcloud
$ gcloud compute tpus queued-resources delete YOUR_QR_ID --force (--async)
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
选中队列中的资源请求旁边的复选框。
点击
删除。
使用 DCN 并行处理进行多片分片
shardings.py
脚本采用三个参数来指定 DCN 并行度,这些参数对应于每种类型的数据并行度的分片数量:
- dcn_data_parallelism
- dcn_fsdp_parallelism
- dcn_tensor_parallelism
这些参数的值必须受到限制,以便 dcn_data_parallelism * dcn_fsdp_parallelism * dcn_tensor_parallelism
等于 slice 的数量。
例如,对于两个 Slice,请使用 --dcn_data_parallelism = 2
。
dcn_data_parallelism | dcn_fsdp_parallelism | dcn_tensor_parallelism | 切片数量 | |
双向数据并行处理 | 2 | 1 | 1 | 2 |
dcn_tensor_parallelism
应始终设置为 1
,因为 DCN 不适合此类分片。对于 v4 芯片上的典型 LLM 工作负载,dcn_fsdp_parallelism
也应设置为 1
,因此 dcn_data_parallelism
应设置为 slice 数量,但这取决于应用。
随着 slice 数量的增加(假设您将 slice 大小和每个 slice 的批次保持不变),数据并行处理量也会增加。
在多切片环境中运行 shardings.py
您可以在多 Slice 环境中使用 multihost_runner.py
运行 shardings.py
,也可以在每个 TPU 虚拟机上运行 shardings.py
。在这里,我们使用 multihost_runner.py
。以下步骤与 MaxText 代码库中的开始使用:对多个 slice 进行快速实验非常相似,只不过在这里,我们运行的是 shardings.py
,而不是 train.py
中更复杂的 LLM。
multihost_runner.py
工具针对快速实验进行了优化,可重复使用相同的 TPU。由于 multihost_runner.py
脚本依赖于长连接 SSH 连接,因此我们不建议将其用于任何长时间运行的作业。如果您想运行时长较长(例如数小时或数天)的作业,我们建议您使用 multihost_job.py
。
在本教程中,我们使用术语“运行程序”来指代运行 multihost_runner.py
脚本的机器。我们使用工作器一词来指代构成您的 slice 的 TPU 虚拟机。您可以在本地机器上或与 Slice 位于同一项目中的任何 Compute Engine 虚拟机上运行 multihost_runner.py
。不支持在工作器上运行 multihost_runner.py
。
multihost_runner.py
会使用 SSH 自动连接到 TPU 工作器。
在此示例中,我们在两个 v4-16 切片上运行 shardings.py
,总共使用四个虚拟机和 16 个 TPU 芯片。您可以修改该示例,以便在更多 TPU 上运行。
设置环境
在运行器机器上克隆 MaxText。
前往代码库目录。
为
gcloud
创建 SSH 密钥,我们建议您将密码留空(运行以下命令后,按 Enter 键两次)。如果系统提示google_compute_engine
文件已存在,请选择不保留现有版本。$ ssh-keygen -f ~/.ssh/google_compute_engine
添加一个环境变量,将 TPU 分片数设置为
2
。$ export SLICE_COUNT=2
使用
queued-resources create
命令或 Google Cloud 控制台创建多 Slice 环境。gcloud
以下命令展示了如何创建 v4 多切片 TPU。如需使用 v5e,请指定 v5e
accelerator-type
(例如v5litepod-16
)和 v5eruntime-version
(v2-alpha-tpuv5-lite
)。$ gcloud compute tpus queued-resources \ create YOUR_QR_ID \ --accelerator-type=your-accelerator-type \ --runtime-version=tpu-vm-runtime-version \ --node-count=node-count \ --node-prefix=YOUR_QR_ID \ [--reserved|--spot]
命令标志说明
YOUR_QR_ID
- 一个用户定义的字符串,用于标识二维码请求。
accelerator-type
- 加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 只有 Cloud TPU v4 及更高版本的 TPU 支持多切片。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
runtime-version
- Cloud TPU 软件版本。
node-count
- 要创建的 slice 的数量。
node-prefix
- 用于为每个 slice 生成名称的前缀。系统会将一个数字附加到每个 slice 的前缀后面。例如,如果您将
node-prefix
设置为mySlice
,则切片的名称为:mySlice-0
、mySlice-1
,以数字方式依次为每个切片命名。 reserved
- 在创建 slice 时使用预留。
spot
- 在创建 Slice 时使用 Spot 虚拟机。
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击创建 TPU。
在名称字段中,为 TPU 输入名称。
在“可用区”框中,选择要创建 TPU 的可用区。
在 TPU 类型框中,选择加速器类型。加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。只有 Cloud TPU v4 及更高版本的 TPU 支持多切片。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
在 TPU 软件版本框中,选择软件版本。创建 Cloud TPU 虚拟机时,TPU 软件版本指定了要安装的 TPU 运行时的版本。如需了解详情,请参阅 TPU 虚拟机映像。
点击启用队列功能切换开关。
在已加入队列的资源名称字段中,为已加入队列的资源请求输入名称。
点击将此项设置为多切片 TPU 复选框。
在slice 数量字段中,输入要创建的 slice 数量。
点击创建以创建队列中的资源请求。
队列化资源预配开始后,最长可能需要 5 分钟才能完成,具体取决于队列化资源的大小。等待队列中的资源进入
ACTIVE
状态。您可以使用 gcloud CLI 或 Google Cloud 控制台检查队列中资源请求的状态:gcloud
$ gcloud compute tpus queued-resources list \ --filter=YOUR_QR_ID
这应该会生成如下所示的输出:
NAME ZONE NODE_COUNT ACCELERATOR_TYPE STATE ... que-res-id us-central2-b 4 v4-16 ACTIVE ...
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
点击已加入队列的资源请求的名称。
如果二维码状态在
WAITING_FOR_RESOURCES
或PROVISIONING
状态下超过 15 分钟,请与您的 Google Cloud 客户代表联系。安装依赖项。
$ python3 multihost_runner.py \ --TPU_PREFIX=YOUR_QR_ID \ --COMMAND="bash setup.sh"
使用
multihost_runner.py
在每个工作器上运行shardings.py
。$ python3 multihost_runner.py \ --TPU_PREFIX=YOUR_QR_ID \ --COMMAND="python3 pedagogical_examples/shardings.py \ --dcn_data_parallelism $SLICE_COUNT \ --ici_fsdp_parallelism 8 \ --batch_size 131072 \ --embedding_dimension 2048"
您会在日志文件中看到每秒大约 230 TFLOP 的性能。
完成后,请清理 TPU 和已排队的资源。删除操作需要 2 到 5 分钟才能完成。如果您使用的是 gcloud CLI,则可以使用可选的
--async
标志在后台运行此命令。
将工作负载扩缩到多切片
在多 Slice 环境中运行模型之前,请进行以下代码更改:
- 创建网格时,请使用 jax.experimental.mesh_utils.create_hybrid_device_mesh,而不是 jax.experimental.mesh_utils.create_device_mesh。
迁移到多切片时,这些应该是唯一必要的代码更改。为了实现高性能,DCN 需要映射到数据并行、完全分片数据并行或流水线并行轴。如需详细了解性能注意事项和分片策略,请参阅使用 Multislice 分片实现最佳性能。
如需验证您的代码是否可以访问所有设备,您可以断言 len(jax.devices())
等于多片环境中的芯片数量。例如,如果您使用的是 v4-16
的四个 slice,则每个 slice 有 8 个芯片 * 4 个 slice,因此 len(jax.devices())
应返回 32。
为多 slice 环境选择 slice 大小
如需实现线性加速,请添加与现有 slice 大小相同的新 slice。例如,如果您使用 v4-512
slice,则通过添加第二个 v4-512
slice 并将全局批次大小翻倍,Multislice 的性能大约会翻倍。如需了解详情,请参阅使用多片切分实现最大性能。
在多个 Slice 上运行作业
您可以通过以下三种不同的方法在多 slice 环境中运行自定义工作负载:
- 使用实验运行脚本
multihost_runner.py
- 使用正式版运行脚本
multihost_job.py
- 使用人工方法
实验运行程序脚本
multihost_runner.py
脚本会将代码分发到现有的多片环境,并在每个主机上运行您的命令、将日志复制回来,以及跟踪每个命令的错误状态。multihost_runner.py
脚本记录在 MaxText README 中。
由于 multihost_runner.py
会维护持久的 SSH 连接,因此仅适用于规模较小且运行时间相对较短的实验。您可以根据自己的工作负载和硬件配置,调整 multihost_runner.py 教程中的步骤。
生产环境程序脚本
对于需要针对硬件故障和其他抢占情况提供弹性的生产作业,最好直接与 Create Queued Resource API 集成。作为一个工作示例,我们提供了 multihost_job.py
,它会使用适当的启动脚本触发 Created Queued Resource API 调用,以便运行训练并在抢占时恢复。multihost_job.py
脚本记录在 MaxText README 中。
由于 multihost_job.py
必须为每次运行预配资源,因此其迭代周期不如 multihost_runner.py
快。
手动方法
我们建议您使用或改编 multihost_runner.py 或 multihost_job.py 在多切片配置中运行自定义工作负载。不过,如果您更喜欢直接使用二维码命令预配和管理环境,请参阅管理多切片环境。
管理多切片环境
如需在不使用 MaxText 代码库中提供的工具的情况下手动预配和管理二维码,请参阅以下部分。
创建已排队的资源
gcloud
在预配容量之前,请设置以下环境变量:
$ export YOUR_QR_ID=your-queued-resource-id $ export PROJECT=your-project-name $ export ZONE=us-central2-b $ export NETWORK_NAME=your-network-name $ export SUBNETWORK_NAME=your-subnetwork-name $ export RUNTIME_VERSION=tpu-ubuntu2204-base $ export ACCELERATOR_TYPE=v4-16 $ export SLICE_COUNT=4 $ export STARTUP_SCRIPT="#!/bin/bash\n ..." $ gcloud config set project project-name $ gcloud config set compute/zone zone
变量说明
输入 说明 YOUR_QR_ID 队列中资源的用户分配 ID。 项目 Google Cloud 项目名称 区域 指定要创建资源的区域。 NETWORK_NAME VPC 网络的名称。 SUBNETWORK_NAME VPC 网络中的子网名称 RUNTIME_VERSION Cloud TPU 软件版本。 ACCELERATOR_TYPE v4-16 EXAMPLE_TAG_1、EXAMPLE_TAG_2… 用于标识网络防火墙的有效来源或目标的标记 SLICE_COUNT 切片数量。最多只能有 256 个 slice。 STARTUP_SCRIPT 如果您指定了启动脚本,则该脚本会在预配或重启 TPU slice 时运行。 使用以下命令创建队列化资源请求:
$ gcloud compute tpus queued-resources \ create ${YOUR_QR_ID} \ --project your-project-id \ --zone your-zone \ --node-count ${SLICE_COUNT} \ --accelerator-type ${ACCELERATOR_TYPE} \ --runtime-version ${RUNTIME_VERSION} \ --network ${NETWORK_NAME} \ --subnetwork ${SUBNETWORK_NAME} \ --tags ${EXAMPLE_TAG_1},${EXAMPLE_TAG_2} \ --metadata=startup-script='${STARTUP_SCRIPT}' [--reserved|--spot]
命令标志说明
YOUR_QR_ID
- 一个用户定义的字符串,用于标识队列中的资源请求。
project
- 您在其中创建队列化资源请求的 Google Cloud 项目。
zone
- 要在其中创建队列化资源的 Google Cloud 区域。
node-count
- 要创建的 slice 的数量。
accelerator-type
- 加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 只有 Cloud TPU v4 及更高版本的 TPU 支持多切片。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
runtime-version
- Cloud TPU 软件版本。
network
- 要将 TPU 资源附加到的 VPC 网络的名称。
subnetwork
- 要将 TPU 资源附加到的 VPC 子网的名称。
reserved
- 在创建 slice 时使用预留。
spot
- 在创建 Slice 时使用 Spot 虚拟机。
请确保您拥有相应的配额,然后再选择 --reserved
、--spot
或默认的按需配额。如需了解配额类型,请参阅配额政策。
curl
创建一个名为
queued-resource-req.json
的文件,并将以下 JSON 复制到其中。{ "guaranteed": { "reserved": true }, "tpu": { "node_spec": [ { "parent": "projects/your-project-number/locations/your-zone", "node": { "accelerator_type": "accelerator-type", "runtime_version": "tpu-vm-runtime-version", "network_config": { "network": "your-network-name", "subnetwork": "your-subnetwork-name", "enable_external_ips": true }, "tags" : ["example-tag-1"] "metadata": { "startup-script": "your-startup-script" } }, "multi_node_params": { "node_count": slice-count, "node_id_prefix": "your-queued-resource-id" } } ] } }
替换以下值:
- your-project-number - 您的 Google Cloud 项目编号
- your-zone - 您要创建队列型资源的可用区
- accelerator-type - 单个 slice 的版本和大小。 只有 Cloud TPU v4 及更高版本的 TPU 支持多切片。
- tpu-vm-runtime-version - 您要使用的 TPU 虚拟机运行时版本。
- your-network-name - 可选,队列中资源要附加到的网络
- your-subnetwork-name - 可选,队列中资源将附加到的子网
- example-tag-1 - 可选,任意标记字符串
- your-startup-script - 在队列化资源分配时运行的启动脚本
- slice-count - 多切片环境中的 TPU 切片数量
- YOUR_QR_ID - 用户为队列中的资源提供的 ID
如需了解详情,请参阅 REST 队列化资源 API 文档,了解所有可用选项。
如需使用 Spot 容量,请替换以下代码:
"guaranteed": { "reserved": true }
-"spot": {}
移除该行即可使用默认的按需容量。
使用 JSON 载荷提交已加入队列的资源创建请求:
$ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @queuedresourcereq.json \ https://tpu.googleapis.com/v2alpha1/projects/your-project-id/locations/your-zone/queuedResources\?queued_resource_id\=YOUR_QR_ID
替换以下值:
- your-project-id - 您的 Google Cloud 项目 ID
- your-zone - 您要创建队列型资源的可用区
- YOUR_QR_ID - 用户为队列中的资源提供的 ID
响应应如下所示:
{ "name": "projects/<your-project-id>/locations/<your-zone>/operations/operation-<your-qr-guid>", "metadata": { "@type": "type.googleapis.com/google.cloud.common.OperationMetadata", "createTime": "2023-11-01T00:17:05.742546311Z", "target": "projects/<your-project-id>/locations/<your-zone>/queuedResources/<your-qa-id>", "verb": "create", "cancelRequested": false, "apiVersion": "v2alpha1" }, "done": false }
在 name
属性的字符串值末尾使用 GUID 值,以获取有关已加入队列的资源请求的信息。
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击创建 TPU。
在名称字段中,为 TPU 输入名称。
在“可用区”框中,选择要创建 TPU 的可用区。
在 TPU 类型框中,选择加速器类型。加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。只有 Cloud TPU v4 及更高版本的 TPU 支持多切片。如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本。
在 TPU 软件版本框中,选择软件版本。创建 Cloud TPU 虚拟机时,TPU 软件版本指定了要安装的 TPU 运行时的版本。如需了解详情,请参阅 TPU 虚拟机映像。
点击启用队列功能切换开关。
在已加入队列的资源名称字段中,为已加入队列的资源请求输入名称。
点击将此项设置为多切片 TPU 复选框。
在slice 数量字段中,输入要创建的 slice 数量。
点击创建以创建队列中的资源请求。
检索已排队资源的状态
gcloud
$ gcloud compute tpus queued-resources describe ${YOUR_QR_ID}
对于处于 ACTIVE
状态的队列资源,输出如下所示:
... state: state: ACTIVE ...
curl
$ curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://tpu.googleapis.com/v2/projects/your-project-id/locations/your-zone/queuedResources/${YOUR_QR_ID}
对于处于 ACTIVE
状态的队列资源,输出如下所示:
{ "name": your-queued-res, "tpu": { "nodeSpec": [ { ... // node 1 }, { ... // node 2 }, ... ] }, ... "state": "ACTIVE" }
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
点击已加入队列的资源请求的名称。
预配 TPU 后,您还可以前往 TPU 页面,找到您的 TPU,然后点击相应已排队资源请求的名称,查看有关该请求的详细信息。
在极少数情况下,您可能会发现队列中的资源处于 FAILED
状态,而某些 slice 处于 ACTIVE
状态。如果发生这种情况,请删除已创建的资源,并在几分钟后重试,或与 Google Cloud 支持团队联系。
使用 SSH 连接并安装依赖项
在 TPU Pod 切片上运行 JAX 代码介绍了如何在单个切片中使用 SSH 连接到 TPU 虚拟机。如需通过 SSH 连接到多 Slice 环境中的所有 TPU 虚拟机并安装依赖项,请使用以下 gcloud
命令:
$ gcloud compute tpus queued-resources ssh ${YOUR_QR_ID} \ --zone your-zone \ --node=all \ --worker=all \ --command="command-to-run" --batch-size=4
此 gcloud
命令会使用 SSH 将指定的命令发送到 QR 中的所有工作器和节点。该命令会分批发送,每批 4 个。当当前批次命令执行完毕时,系统会发送下一批命令。如果其中某个命令失败,则处理会停止,并且不会再发送其他批次。如需了解详情,请参阅队列化资源 API 参考文档。如果您使用的 slice 数量超出了本地计算机的线程数限制(也称为批处理限制),则会遇到死锁。例如,假设本地机器上的批处理限制为 64。如果您尝试在超过 64 个 slice(例如 100 个 slice)上运行训练脚本,SSH 命令会将这些 slice 拆分为批次。它将对第一批 64 个 slice 运行训练脚本,并等待脚本运行完毕,然后再对剩余的 36 个 slice 运行脚本。不过,第一个批次(64 个 slice)无法完成,除非其余 36 个 slice 开始运行脚本,这会导致死锁。
为避免这种情况,您可以通过将 ampersand (&
) 附加到使用 --command
标志指定的脚本命令,在每个虚拟机上在后台运行训练脚本。这样一来,在第一批 slice 上启动训练脚本后,控制权将立即返回到 SSH 命令。然后,SSH 命令可以开始对剩余的 36 个 slice 批处理运行训练脚本。在后台运行命令时,您需要适当地管道传输 stdout
和 stderr
流。如需提高同一二维码中的并行度,您可以使用 --node
参数选择特定 slice。
网络设置
请按照以下步骤操作,确保 TPU 切片可以相互通信。在每个切片上安装 JAX。如需了解详情,请参阅在 TPU Pod 切片上运行 JAX 代码。断言 len(jax.devices())
等于多切片环境中的芯片数量。为此,请在每个 slice 上运行以下命令:
$ python3 -c 'import jax; print(jax.devices())'
如果您在四个 v4-16 的 slice 上运行此代码,每个 slice 有 8 个条状标签,四个 slice,jax.devices()
应返回总计 32 个条状标签(设备)。
列出已排队的资源
gcloud
您可以使用 queued-resources list
命令查看队列中资源的状态:
$ gcloud compute tpus queued-resources list
输出类似于以下内容:
NAME ZONE NODE_COUNT ACCELERATOR_TYPE STATE ... que-res-id us-central2-b 4 v4-16 ACTIVE ...
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
在预配的环境中启动作业
您可以通过 SSH 连接到每个 slice 中的所有主机,并在所有主机上运行以下命令,以手动运行工作负载。
$ gcloud compute tpus tpu-vm ssh YOUR_QR_ID \ --zone=your-zone \ --worker=all \ --node=all \ --command="command-to-run"
重置二维码
ResetQueuedResource
API 可用于重置 ACTIVE
QR 中的所有虚拟机。重置虚拟机会强制擦除机器的内存,并将虚拟机重置为初始状态。本地存储的所有数据都将保持不变,重置后系统会调用启动脚本。当您想重启所有 TPU 时,ResetQueuedResource
API 会非常有用。例如,当训练卡住时,重置所有虚拟机比调试更容易。
所有虚拟机的复位操作会并行执行,ResetQueuedResource
操作需要一到两分钟才能完成。如需调用该 API,请使用以下命令:
$ gcloud compute tpus queued-resources reset YOUR_QR_ID
删除已排队的资源
如需在训练会话结束时释放资源,请删除队列中的资源。删除操作需要 2 到 5 分钟才能完成。如果您使用的是 gcloud CLI,则可以使用可选的 --async
标志在后台运行此命令。
gcloud
$ gcloud compute tpus queued-resources \ delete YOUR_QR_ID --force (--async)
控制台
在 Google Cloud 控制台中,前往 TPU 页面:
点击已加入队列的资源标签页。
选中队列中的资源请求旁边的复选框。
点击
删除。
自动故障恢复
如果发生中断,Multislice 会免人为干预地修复受影响的 slice,并在之后重置所有 slice。系统会将受影响的 slice 替换为新的 slice,并重置其余正常的 slice。如果没有可用容量来分配替换 slice,则训练会停止。
如需在中断后自动恢复训练,您必须指定一个用于检查并加载上次保存的检查点的启动脚本。每当重新分配 slice 或重置虚拟机时,系统都会自动运行启动脚本。您可以在发送到 create QR request API 的 JSON 载荷中指定启动脚本。
借助以下启动脚本(在创建二维码中使用),您可以自动从失败中恢复,并从 MaxText 训练期间存储在 Cloud Storage 存储桶中的检查点继续训练:
{ "tpu": { "node_spec": [ { ... "metadata": { "startup-script": "#! /bin/bash \n pwd \n runuser -l user1 -c 'cd /home/user1/MaxText && python3 MaxText/train.py MaxText/configs/base.yml run_name=run_test_failure_recovery dcn_data_parallelism=4 ici_fsdp_parallelism=8 steps=10000 save_period=10 base_output_directory='gs://user1-us-central2'' EOF" } ... } ] } }
请先克隆 MaxText 代码库,然后再尝试执行此操作。
性能分析和调试
在单 Slice 环境和多 Slice 环境中,性能分析是一样的。如需了解详情,请参阅剖析 JAX 程序。
优化培训
使用 Multislice 进行分片以实现最佳性能
若要在多切片环境中实现最高性能,需要考虑如何跨多个切片进行分片。通常有三种选择(数据并行性、完全分片数据并行性和流水线并行性)。我们不建议跨模型维度对激活进行分片(有时称为张量并行),因为这需要太多的 slice 间带宽。对于所有这些策略,您都可以在切片中保留过去行之有效的分片策略。
我们建议从纯数据并行开始。使用完全分片的数据并行处理有助于释放内存用量。缺点是,切片之间的通信会使用 DCN 网络,这会降低工作负载速度。根据批次大小(如下文所分析),仅在必要时使用流水线并行处理。
何时使用数据并行处理
如果您的工作负载运行良好,但您希望通过跨多个 slice 伸缩来提升其性能,那么纯数据并行处理将非常适用。
为了实现跨多个 slice 的强伸缩,在 DCN 上执行全局求和所需的时间需要短于执行向后传递所需的时间。DCN 用于切片之间的通信,是工作负载吞吐量的限制因素。
每个 v4 TPU 芯片的峰值性能为每秒 275 * 1012 FLOPS。
每个 TPU 主机有 4 个芯片,每个主机的最大网络带宽为 50 Gbps。
这意味着算术强度为 4 * 275 * 1012 FLOPS / 50 Gbps = 22000 FLOPS / 位。
您的模型将在每个步骤中为每个参数使用 32 到 64 位 DCN 带宽。如果您使用两个 slice,则模型将使用 32 位 DCN 带宽。如果您使用多个 slice,编译器将执行完全随机全求和操作,并且您将在每个步骤中为每个参数使用最多 64 位 DCN 带宽。每个参数所需的 FLOPS 量会因模型而异。具体而言,对于基于 Transformer 的语言模型,正向和反向传递所需的 FLOPS 数量约为 6 * B * P,其中:
- B 是批次大小(以令牌为单位)
- P 是参数数量
每个参数的 FLOPS 数为 6 * B
,在向后传递期间每个参数的 FLOPS 数为 4 * B
。
为了确保跨多个 Slice 进行强伸缩,请确保操作强度超过 TPU 硬件的算术强度。如需计算运算强度,请将反向传递期间每个参数的 FLOPS 数除以每个步骤每个参数的网络带宽(以位为单位):Operational Intensity = FLOPSbackwards_pass / DCN bandwidth
因此,对于基于 Transformer 的语言模型,如果您使用两个 slice:
Operational intensity = 4 * B / 32
如果您使用多个 Slice:Operational intensity = 4 * B/64
这表明,基于 Transformer 的语言模型的最小批次大小应介于 176k 到 352k 之间。由于 DCN 网络可能会暂时丢弃数据包,因此最好保持较大的误差余量,仅在每个 Pod 的批次大小至少为 35 万(两个 Pod)到 70 万(多个 Pod)时部署数据并行处理。
对于其他模型架构,您需要估算每个 slice 的向后传递运行时(使用性能分析器测量时间或统计 FLOPS)。然后,您可以将其与预期的运行时间进行比较,以便在 DCN 上全部缩减,并准确估算数据并行是否适合您。
何时使用完全分片数据并行处理 (FSDP)
完全分片的数据并行处理 (FSDP) 将数据并行处理(将数据分片到各个节点)与将权重分片到各个节点相结合。对于正向和反向传递中的每个操作,系统都会收集所有权重,以便每个 slice 都具有所需的权重。梯度不是使用全局求和进行同步,而是在生成时进行求和-分散。这样一来,每个 slice 只会获得其负责的权重的梯度。
与数据并行性类似,FSDP 需要将全局批次大小按 slice 数量线性伸缩。随着 slice 数量的增加,FSDP 会降低内存压力。这是因为每个 slice 的权重和优化器状态数量会减少,但代价是网络流量增加,并且由于集合延迟,阻塞的可能性更大。
在实践中,如果您要增加每个 slice 的批处理数量、存储更多激活以最大限度地减少向后传递期间的重材化,或者增加神经网络中的参数数量,最好使用跨 slice 的 FSDP。
FSDP 中的全收集和全求和操作与 DP 中的操作类似,因此您可以按照上一部分中所述的方式确定 FSDP 工作负载是否受 DCN 性能的限制。
何时使用流水线并行处理
当使用其他并行策略(需要全局批次大小大于首选批次大小上限)实现高性能时,流水线并行性就很重要了。借助流水线并行性,构成流水线的 slice 可以“共享”一个批处理。不过,流水线并行有两个重大缺点:
- 这会导致“流水线气泡”,其中芯片处于空闲状态,因为它们正在等待数据。
- 它需要进行微批处理,这会降低有效批次大小、算术强度,并最终降低模型 FLOP 利用率。
只有在其他并行策略需要过大的全局批次大小时,才应使用流水线并行处理。在尝试流水线并行处理之前,不妨先进行实验,以便从经验上了解在实现高性能 FSDP 所需的批次大小下,每个样本的收敛速度是否会变慢。FSDP 往往可以实现更高的模型 FLOP 利用率,但如果随着批次大小的增加,每个样本的收敛速度变慢,流水线并行处理可能仍然是更好的选择。大多数工作负载可以容忍足够大的批处理大小,因此无法从流水线并行性中受益,但您的工作负载可能有所不同。
如果需要流水线并行处理,我们建议将其与数据并行处理或 FSDP 结合使用。这样,您就可以最大限度地缩短流水线深度,同时增加每个流水线的批次大小,直到 DCN 延迟时间对吞吐量的影响变小。具体而言,如果您有 N 个 slice,请考虑深度为 2 且数据并行复制为 N/2 的流水线,然后考虑深度为 4 且数据并行复制为 N/4 的流水线,以此类推,直到每个流水线的批处理大小足够大,以便 DCN 集合可以隐藏在向后传递中的算术操作后面。这将最大限度地减少流水线并行带来的速度下降,同时允许您扩展到超出全局批次大小限制的程度。
多切片最佳实践
数据加载
在训练期间,我们会反复从数据集中加载批量数据,以馈送给模型。为了避免 TPU 缺少工作,请务必使用高效的异步数据加载器,将批处理分片到多个主机。MaxText 中当前的数据加载器会让每个主机加载相同数量的示例子集。此解决方案适用于文本,但需要在模型中进行重新分片。此外,MaxText 尚不提供确定性快照,这会导致数据迭代器在抢占之前和之后加载相同的数据。
检查点
Orbax 检查点库提供了用于将 JAX PyTree 检查点到本地存储空间或 Google Cloud 存储空间的原语。我们在 checkpointing.py
中提供了一个参考集成,其中包含对 MaxText 的同步检查点。
受支持的配置
形状
所有 slice 的形状必须相同(例如,相同的 AcceleratorType
)。不支持异构 slice 形状。
编排
GKE 支持编排。如需了解详情,请参阅 GKE 中的 TPU。
框架
多切片仅支持 JAX 和 PyTorch 工作负载。
最大并行数量
我们建议用户使用数据并行性测试 Multislice。如需详细了解如何使用 Multislice 实现流水线并行处理,请与您的 Google Cloud 客户代表联系。
支持与反馈
欢迎您提供任何反馈!如需分享反馈或请求支持,请使用 Cloud TPU 支持或反馈表单与我们联系。