Cloud TPU 多切片概览

Cloud TPU Multislice 是一项全栈性能扩缩技术,可让训练作业使用单个 Pod 中的多个 TPU slice,或使用多个 Pod 中的 slice 进行简单的数据并行处理。对于 TPU v4 芯片,这意味着训练作业在单次运行中可以使用超过 4096 个芯片。训练用 对于需要少于 4096 个条状标签的作业,单个切片可以提供 性能然而,多个较小的切片更容易获得, 当以更小尺寸使用多切片时,可以缩短启动时间 。

多个 slice 会线性扩缩性能

在多切片配置中部署时,每个切片中的 TPU 芯片通过芯片间互连 (ICI) 进行通信。不同切片中的 TPU 芯片通过将数据传输到 CPU(主机)进行通信,后者再通过数据中心网络 (DCN) 传输数据。

多切片数据流

开发者无需编写代码即可实现切片间 DCN 通信。 XLA 编译器会为您生成该代码, 以实现最佳性能。

概念

加速器类型
包含一个多切片的每个 TPU 切片的形状。每个 多切片请求中的切片属于同一加速器类型。加速器 类型由 TPU 类型(v4 或 v5e)组成,后跟 TensorCores。例如,v4-128 指定具有 128 个 TensorCore 的 TPU v4。
自动修复
当切片遇到维护事件、抢占或硬件故障时, Cloud TPU 将创建一个新的切片。在极少数情况下 资源不足,无法创建新切片,创建将无法完成 直到有可用的硬件在新切片创建后,所有其他 多切片环境中的切片将重新开始, 使用正确配置的启动脚本后,训练脚本 可以自动重新启动,而无需用户干预、加载和恢复 从最新的检查点开始。
数据集
模型用于训练或推理的相关数据。
数据中心网络 (DCN)
延迟时间较长,吞吐量较低(与 ICI 相比) 连接多切片配置中的 TPU 切片。
群组调度
同时对所有 TPU 切片进行预配时,可以保证 或者所有切片都未成功预配。
主机
主机是运行虚拟机的物理计算机。一个主机最多可以运行四个虚拟机 。每个虚拟机都有一个专用 TPU。
推断
将预训练的机器学习模型加载到主机上并进行预测, 数据。
芯片间互连 (ICI)
用于连接 TPU Pod 内多个 TPU 的高速、低延迟内部链路。
多层切片
两个或更多可通过 DCN 通信的 TPU 芯片切片。
节点
在多切片上下文中,节点是指单个 TPU 切片。多切片中的每个 TPU 切片都会分配一个节点 ID。
Pod
通过专用 ICI 网络接口连接的一系列 TPU 芯片。借助 Pod,您可以跨多个 TPU 分配处理负载。
已加入队列的资源 (QR)
TPU 资源的表示法,用于将单切片或多切片 TPU 环境的请求加入队列并进行管理。
启动脚本
一个标准的 Compute Engine 启动脚本,每次虚拟机启动或重新启动时都会运行。对于多切片,此值在二维码创建请求中指定。更多信息 请参阅管理 Cloud TPU 资源
TPU 切片
由 TPU 芯片组成的 TPU Pod 的逻辑子部分。同一类中的所有条状标签 这些切片使用 ICI 网络相互通信。
TPU 虚拟机
运行 Linux 且有权访问底层 TPU 的虚拟机。对于 v4 TPU,每个 TPU 虚拟机都可以直接访问四个芯片。有时我们称之为 TPU, 虚拟机作为工作器
Tensor
一种数据结构,用于表示机器中的多维数据 机器学习模型。
张量处理单元 (TPU)
Google 内部开发的机器学习加速芯片。它们旨在为矩阵乘法等关键机器学习任务提供快速且节能的计算。
Cloud TPU 容量类型

您可以使用不同类型的容量创建 TPU(请参阅TPU 价格运作方式中的“使用选项”):

  • 预留:目标预留配额。如需使用预留配额,您必须与 Google 签订预留配额协议。创建资源时,请使用 --reserved 标志。
  • Spot:使用 Spot 虚拟机定位抢占式配额。您的 从而为更高优先级的请求腾出空间 优先级作业。创建资源时,请使用 --spot 标志。
  • 按需:以按需配额为目标,不需要预留 并且不会被抢占TPU 请求将加入按需队列 Cloud TPU 提供的配额队列,那么资源可用性 。默认选择,无需任何标志。

开始使用

如果您之前没有使用过 TPU,请先安装 Google Cloud CLI, 以及如何设置您的 Cloud TPU 环境。如需使用多 Slice,您的 TPU 资源必须作为已排队的资源进行管理。

如果您已经是 TPU v4 用户并且有预留,则可能需要迁移 新的预订系统如需更多信息 请与您的 Google Cloud 客户代表联系。

入门示例

本教程使用 MaxText GitHub 代码库中的代码。 MaxText 性能出色、可任意伸缩、开源且经过充分测试 使用 Python 和 Jax 编写的基本 LLM。MaxText 旨在高效地在 Cloud TPU 上进行训练。

shardings.py 中的代码 旨在帮助您开始尝试不同的并行性 选项。例如,数据并行、完全分片数据并行 (FSDP) 和张量并行。代码可从单个 slice 扩展到多 slice 环境。

ICI 并行处理

ICI 是指用于连接单个 slice 中的 TPU 的高速互连。ICI 分片对应于切片内的分片。shardings.py 提供了三个 ICI 并行处理参数:

  • ici_data_parallelism
  • ici_fsdp_parallelism
  • ici_tensor_parallelism

您为这些参数指定的值决定了 并行处理方法

必须对这些输入加以限制, ici_data_parallelism * ici_fsdp_parallelism * ici_tensor_parallelism等于 表示切片中条状标签的数量。

下表显示了四个示例,用于实现 ICI 并行处理 v4-8 中提供的条状标签:

ici_data_parallelism ici_fsdp_parallelism ici_tensor_parallelism
4 声道 FSDP 1 4 1
4 路张量并行处理 1 1 4
双向 FSDP + 双向 Tensor 并行处理 1 2 2

请注意,在大多数情况下,ici_data_parallelism 应保留为 1,因为 ICI 网络的速度足够快,几乎总是首选 FSDP 而不是数据并行处理。

此示例假定您熟悉在单个 TPU 切片上运行代码 例如使用 JAX 在 Cloud TPU 虚拟机上运行计算。 此示例展示了如何在单个 slice 上运行 shardings.py

  1. 设置环境:

    $ gcloud auth login
    $ gcloud config set project your-project-id
    $ gcloud config set compute/zone your-zone
  2. gcloud 创建 SSH 密钥。我们建议您将密码留空(运行以下命令后,按两次 Enter 键)。如果系统提示 google_compute_engine 文件已存在,请替换现有版本。

    $ ssh-keygen -f ~/.ssh/google_compute_engine
  3. 使用以下命令预配 TPU:

    $ gcloud compute tpus queued-resources \
    create your-qr-id \
    --accelerator-type your-accelerator-type \
    --runtime-version tpu-ubuntu2204-base \
    --node-id qr-id \
    [--reserved |--spot]

    命令标志说明

    your-qr-id
    一个用户定义的字符串,用于标识二维码请求。
    accelerator-type
    加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本
    runtime-version
    [Cloud TPU 软件版本](/tpu/docs/supported-tpu-configurations#tpu_software_versions)。
    node-id
    将在响应 二维码请求。
    reserved
    创建切片时使用预留的配额。
    spot
    在创建 Slice 时使用 Spot 虚拟机配额。

    Google Cloud CLI 不支持某些二维码创建选项,例如标记。 如需了解详情,请参阅创建二维码

  4. 等待 QR 处于 ACTIVE 状态,这表示工作器节点处于 READY 状态。二维码配置开始后,可能需要一到五个时间 所需时间长短取决于二维码的大小。您可以使用以下命令检查二维码请求的状态:

    $ gcloud compute tpus queued-resources \
      list --filter=your-qr-id
  5. 一个 v4-8 切片具有一个 TPU 虚拟机。使用 SSH 连接到 TPU 虚拟机:

    $ gcloud compute tpus tpu-vm ssh your-qr-id
  6. 将 MaxText(包括 shardings.py)克隆到 TPU 虚拟机。

  7. 在 MaxText 代码库目录中,运行设置脚本以在 TPU slice 上安装 JAX 和其他依赖项。设置脚本需要几分钟时间才能运行。

    $ bash setup.sh
  8. 运行以下命令,在 TPU 分块上运行 shardings.py

    $ python3 pedagogical_examples/shardings.py \
      --ici_fsdp_parallelism 4 \
      --batch_size 131072 \
      --embedding_dimension 2048

    您可以在日志中查看结果。您的 TPU 应该会达到大约 260 TFLOP 或可观的 90%以上 FLOP 利用率!在本例中,我们选择了 TPU 高带宽内存 (HBM) 中可容纳的大致最大批量。

  9. 您可以随意探索 ICI 之外的其他分片策略,例如,您可以尝试以下组合:

    $ python3 pedagogical_examples/shardings.py \
      --ici_tensor_parallelism 4 \
      --batch_size 131072 \
      --embedding_dimension 2048
  10. 完成后删除二维码和 TPU 切片。您应在设置 slice 的环境中运行这些清理步骤(先运行 exit 以退出 SSH 会话)。删除操作需要两到五分钟才能完成,并且可以使用可选的 --async 标志在后台运行。

    $ gcloud compute tpus queued-resources
      delete your-qr-id --force (--async)

使用 DCN 并行处理的多切片分片

shardings.py 脚本采用三个参数来指定 DCN 并行度,分别对应于每种类型的数据并行度的分片数量:

  • dcn_data_parallelism
  • dcn_fsdp_parallelism
  • dcn_tensor_parallelism

必须对这些参数的值进行约束,以便 dcn_data_parallelism * dcn_fsdp_parallelism * dcn_tensor_parallelism等于 切片数量。

例如,对于两个 Slice,请使用 --dcn_data_parallelism = 2

dcn_data_parallelism dcn_fsdp_parallelism dcn_tensor_parallelism 切片数量
双向数据并行处理 2 1 1 2

dcn_tensor_parallelism 应始终设置为 1,因为 DCN 质量不佳 适合这种分片。对于 v4 芯片上的典型 LLM 工作负载,dcn_fsdp_parallelism 也应设置为 1,因此 dcn_data_parallelism 应设置为 slice 数量,但这取决于应用。

随着切片数量的增加(假设您保持切片大小和批次大小) 每个切片常量),则增加数据并行量。

在多切片环境中运行 shardings.py

您可以在多 Slice 环境中使用 multihost_runner.py 运行 shardings.py,也可以在每个 TPU 虚拟机上运行 shardings.py。在这里,我们使用 multihost_runner.py。以下步骤与 使用入门:针对多个切片的快速实验 来自 MaxText 代码库,不过在这里我们运行 shardings.py,而不是 train.py 中更复杂的 LLM。

multihost_runner.py 工具针对快速实验进行了优化,可反复运行 相同的 TPU由于 multihost_runner.py 脚本依赖于长连接 SSH 连接,因此我们不建议将其用于任何长时间运行的作业。如果您想运行时长较长(例如数小时或数天)的作业,我们建议您使用 multihost_job.py

在本教程中,我们使用术语“runner”来指示运行 运行 multihost_runner.py 脚本。我们使用工作器一词来指代构成您的 slice 的 TPU 虚拟机。您可以在本地机器上或与 Slice 位于同一项目中的任何 Compute Engine 虚拟机上运行 multihost_runner.py。不支持在工作器上运行 multihost_runner.py

multihost_runner.py 会使用 SSH 自动连接到 TPU 工作器。

在此示例中,我们在两个 v4-16 切片(总共四个切片)上运行 shardings.py, 虚拟机和 16 个 TPU 芯片。您可以修改示例,以便在更多 TPU 上运行。

设置环境

  1. 在运行程序上克隆 MaxText 虚拟机。

  2. 转到代码库目录。

  3. gcloud 创建 SSH 密钥,我们建议将密码留空(按 在运行以下命令后输入两次)。如果系统提示 google_compute_engine 文件已存在,请选择不保留现有版本。

      $ ssh-keygen -f ~/.ssh/google_compute_engine
      

  4. 添加一个环境变量,将 TPU 分片数设置为 2

      $ export SLICE_COUNT=2
      

  5. 使用 queued-resources create 创建多切片环境。

    以下命令展示了如何创建 v4 Multislice TPU。要使用 v5e,请指定 v5e accelerator-type(例如 v5litepod-16)和 v5e runtime-version (v2-alpha-tpuv5-lite)。

      $ gcloud compute tpus queued-resources 
    create your-qr-id
    --accelerator-type=your-accelerator-type
    --runtime-version=tpu-vm-runtime-version
    --node-count=node-count
    --node-prefix=your-qr-id
    [--reserved|--spot]

    命令标志说明

    your-qr-id
    一个用户定义的字符串,用于标识二维码请求。
    accelerator-type
    加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本
    runtime-version
    Cloud TPU 软件版本
    node-count
    要创建的 slice 的数量。
    node-prefix
    用于为每个切片生成名称的前缀。系统会在每个 slice 的前缀后附加一个数字。例如,如果您将 node-prefix 设置为 mySlice,则切片的名称为:mySlice-0mySlice-1,以数字方式依次为每个切片命名。
    reserved
    创建切片时使用预留的配额。
    spot
    创建切片时使用 Spot 虚拟机配额。

  6. 二维码预配开始后,最多可能需要五分钟才能完成,具体取决于二维码的大小。等待排队的资源 (QR) 进入 ACTIVE 状态。您可以使用 以下命令:

    $ gcloud compute tpus queued-resources list \
    --filter=your-qr-id

    这应该会生成如下所示的输出:

    NAME        ZONE           NODE_COUNT  ACCELERATOR_TYPE  STATE
    ...
    que-res-id  us-central2-b  4           v4-16             ACTIVE
    ...

    如果二维码状态在 WAITING_FOR_RESOURCESPROVISIONING 状态下超过 15 分钟,请与您的 Google Cloud 客户代表联系。

  7. 安装依赖项。

    $ python3 multihost_runner.py \
      --TPU_PREFIX=your-qr-id \
      --COMMAND="bash setup.sh"
  8. 使用 multihost_runner.py 在每个工作器上运行 shardings.py

    $ python3 multihost_runner.py \
      --TPU_PREFIX=your-qr-id \
      --COMMAND="python3 pedagogical_examples/shardings.py \
      --dcn_data_parallelism $SLICE_COUNT \
      --ici_fsdp_parallelism 8 \
      --batch_size 131072 \
      --embedding_dimension 2048"

    您会在日志中看到每秒大约 230 TFLOP 的性能 文件。

  9. 完成后请清理 TPU 和二维码。删除过程需要两到五分钟 几分钟即可完成,并且可以在后台使用可选的 --async 标志。

将工作负载扩缩为多切片

在多切片环境中运行模型之前, 以下代码更改:

这些应该是移至多切片后唯一需要进行的代码更改。 为了实现高性能,DCN 需要映射到数据并行、完全分片数据并行或流水线并行轴。性能注意事项和 有关分片策略的详细介绍,请参见 使用多切片进行分片以获得最佳性能

如需验证您的代码是否可以访问所有设备,您可以断言 len(jax.devices()) 等于多片环境中的芯片数量。例如,如果您使用的是 v4-16 的四个 slice,则每个 slice 有 8 个芯片 * 4 个 slice,因此 len(jax.devices()) 应返回 32。

为多 Slice 环境选择 Slice 大小

要获得线性速度,请添加与现有切片相同大小的新切片 。例如,如果您使用 v4-512 slice,则通过添加第二个 v4-512 slice 并将全局批量大小翻倍,Multislice 的性能大约会翻倍。如需了解详情,请参阅使用多片切分实现最大性能

在多个切片上运行作业

您可以通过三种不同的方法 多切片环境:

  1. 使用实验运行脚本 multihost_runner.py
  2. 使用生产运行程序脚本 multihost_job.py
  3. 使用手动方法

实验运行程序脚本

multihost_runner.py 脚本将代码分发到现有的多切片环境,并运行 在每个主机上运行您的命令,将日志复制回来,并跟踪每个命令的错误 状态。multihost_runner.py 脚本记录在 MaxText README 中。

由于 multihost_runner.py 会维护持久的 SSH 连接,因此仅适用于规模较小且运行时间相对较短的实验。您可以根据自己的工作负载和硬件配置,调整 multihost_runner.py 教程中的步骤。

正式版运行程序脚本

适用于需要灵活应对硬件故障和其他故障的生产作业 最好直接与“创建排队的资源”集成 API。作为一个工作示例,我们提供了 multihost_job.py,它会使用适当的启动脚本触发 Created Queued Resource API 调用,以便运行训练并在抢占时恢复。MaxText README 中记录了 multihost_job.py 脚本。

由于 multihost_job.py 必须为每次运行预配资源,因此它不会 提供与 multihost_runner.py 一样快的迭代周期。

手动方法

我们建议您使用或改编 multihost_runner.pymultihost_job.py,在多切片配置中运行自定义工作负载。不过,如果您更喜欢直接使用二维码命令预配和管理环境,请参阅管理多切片环境

管理多切片环境

在不使用工具的情况下手动配置和管理二维码 MaxText 代码库中提供的应用,请阅读 后续部分。

创建二维码

在预配容量之前,请先设置以下环境变量:

  $ export your-qr-id=your-queued-resource-id
  $ export PROJECT=your-project-name
  $ export ZONE=us-central2-b
  $ export NETWORK_NAME=your-network-name
  $ export SUBNETWORK_NAME=your-subnetwork-name
  $ export RUNTIME_VERSION=tpu-ubuntu2204-base
  $ export ACCELERATOR_TYPE=v4-16
  $ export SLICE_COUNT=4
  $ export STARTUP_SCRIPT="#!/bin/bash\n ..."
  $ gcloud config set project project-name
  $ gcloud config set compute/zone zone
输入 说明
your-qr-id 用户指定的二维码 ID。
项目 Google Cloud 项目名称
可用区 us-central2-b
NETWORK_NAME VPC 网络的名称。
SUBNETWORK_NAME VPC 网络中子网的名称
RUNTIME_VERSION tpu-ubuntu2204-base
ACCELERATOR_TYPE v4-16
EXAMPLE_TAG_1、EXAMPLE_TAG_2... 用于标识网络防火墙的有效来源或目标的标记
SLICE_COUNT 切片数量。最多只能有 256 个切片。
STARTUP_SCRIPT 如果被添加到创建请求中, 启动脚本可以在每次预配或重启 TPU 切片时运行 以及 TPU 切片是否已修复或重置。

使用 gcloud 创建二维码请求

$ gcloud compute tpus queued-resources \
  create ${your-qr-id} \
  --project your-project-id \
  --zone your-zone \
  --node-count ${SLICE_COUNT} \
  --accelerator-type ${ACCELERATOR_TYPE} \
  --runtime-version ${RUNTIME_VERSION} \
  --network ${NETWORK_NAME} \
  --subnetwork ${SUBNETWORK_NAME} \
  --tags ${EXAMPLE_TAG_1},${EXAMPLE_TAG_2} \ --metadata=startup-script='${STARTUP_SCRIPT}'
  [--reserved|--spot]
  

命令标志说明

your-qr-id
一个用户定义的字符串,用于标识二维码请求。
project
一个用户定义的字符串,用于标识二维码请求。
zone
要在其中创建二维码的 Google Cloud 区域。
node-count
要创建的 slice 的数量。
accelerator-type
加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。 如需详细了解每个 TPU 版本支持的加速器类型,请参阅 TPU 版本
runtime-version
Cloud TPU 软件版本
network
要将 TPU 资源附加到的 VPC 网络的名称。
subnetwork
要挂接 TPU 资源的 VPC 子网的名称。
reserved
在创建切片时使用预留配额。
spot
创建切片时使用 Spot 虚拟机配额。

在选择 --reserved 之前,请确保您拥有相应的配额。 --spot 或默认的按需配额。如需了解配额类型 请参阅配额政策

使用 curl 创建二维码请求

创建名为 queued-resource-req.json 的文件,并将以下 JSON 复制到其中。

{
  "guaranteed": { "reserved": true },
  "tpu": {
    "node_spec": [
    {
      "parent": "projects/your-project-number/locations/your-zone",
        "node": {
          "accelerator_type": "accelerator-type",
          "runtime_version": "tpu-vm-runtime-version",
          "network_config": {
            "network": "your-network-name",
            "subnetwork": "your-subnetwork-name",
            "enable_external_ips": true
          },
          "tags" : ["example-tag-1"]
          "metadata": {
            "startup-script": "your-startup-script"
          }
      },
      "multi_node_params": {
        "node_count": slice-count,
        "node_id_prefix": "your-queued-resource-id"
      }
    }
    ]
  }
}
  • your-project-number - 您的 Google Cloud 项目编号
  • your-zone - 要在其中创建二维码的区域
  • accelerator-type - 单个 Slice 的版本和大小
  • tpu-vm-runtime-version - TPU 虚拟机运行时版本
  • your-network-name -(可选)要附加二维码的网络
  • your-subnetwork-name -(可选)要附加二维码的子网
  • example-tag-1 - 可选,任意标记字符串
  • your-startup-script - 在分配二维码时运行的启动脚本
  • slice-count - 多切片环境中的 TPU 切片数量
  • your-qr-id - 用户为二维码提供的 ID

如需了解详情,请参阅 REST 队列资源 API 所有可用选项的文档。

如需使用 Spot 容量,请替换以下代码:

"guaranteed": { "reserved": true } - "spot": {}

移除该行即可使用默认的按需容量。

提交包含 JSON 载荷的二维码创建请求:

  $ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d @queuedresourcereq.json https://tpu.googleapis.com/v2alpha1/projects/your-project-id/locations/your-zone/queuedResources\?queued_resource_id\=your-qr-id
  • your-project-id - 您的 Google Cloud 项目 ID
  • your-zone - 您要创建二维码的可用区
  • your-qr-id - 用户为二维码提供的 ID

响应应如下所示:

{
  "name": "projects/<your-project-id>/locations/<your-zone>/operations/operation-<your-qr-guid>",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.common.OperationMetadata",
    "createTime": "2023-11-01T00:17:05.742546311Z",
    "target": "projects/<your-project-id>/locations/<your-zone>/queuedResources/<your-qa-id>",
    "verb": "create",
    "cancelRequested": false,
    "apiVersion": "v2alpha1"
  },
  "done": false
}

使用 name 属性的字符串值末尾的 GUID 值来获取 关于二维码请求的信息。

检索二维码的状态

如需获取二维码请求的状态,请使用以下命令:

  $ curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://tpu.googleapis.com/v2/projects/your-project-id/locations/your-zone/operations/operation-your-qr-guid
  • your-project-id - 您的 Google Cloud 项目 ID
  • your-zone - 要在其中创建二维码的区域
  • your-qr-guid - 指定 API 输出中 name 后面的 GUID 二维码创建请求。

此命令的响应包含操作的状态:

{
  "name": "projects/<your-project-id>/locations/<your-zone>/operations/operation-<your-qa-guid>,
  "metadata": {...},
  "done": true,
  "response": {
    "@type": "type.googleapis.com/google.cloud.tpu.v2.QueuedResource",
    ...
    "state": {
      "state": "WAITING_FOR_RESOURCES"
    }
  }
}

如果二维码创建成功 ("done = true"),则 response 字段将为 WAITING_FOR_RESOURCESFAILED。 如果二维码处于 WAITING_FOR_RESOURCES 状态,则表示二维码已加入队列,并会在有足够的资源时开始预配。如果二维码处于 FAILED 状态,输出中会显示失败原因。有关 有关其他可能状态的信息,请参阅 已加入队列的资源用户指南

操作完成后,使用 describe QRs 命令监控二维码的各个阶段。

在极少数情况下,您可能会发现二维码处于 FAILED 状态,而一些 Slice 为 ACTIVE。如果发生这种情况,请删除已创建的资源,然后过几分钟再试,或者与 Cloud TPU 团队联系来解决此问题。

使用 SSH 连接并安装依赖项

在 TPU Pod 切片上运行 JAX 代码介绍了如何在单个切片中使用 SSH 连接到 TPU 虚拟机。如需通过 SSH 连接到多 Slice 环境中的所有 TPU 虚拟机并安装依赖项,请使用以下 gcloud 命令:

  $ gcloud compute tpus queued-resources ssh ${your-qr-id} \
    --zone your-zone \
    --node=all \
    --worker=all \
    --command="command-to-run"
    --batch-size=4

gcloud 命令会使用 SSH 将指定的命令发送到 QR 中的所有工作器和节点。该命令会被分成四组分批发送 。当当前批次命令执行完毕时,系统会发送下一批命令。如果其中某个命令出现故障, 停止,并且不再发送其他批次。有关详情,请参阅 已加入队列的资源 API 参考文档。 如果您使用的 slice 数量超出了本地计算机的线程数限制(也称为批处理限制),则会遇到死锁。例如,假设本地机器上的批处理限制为 64。如果您尝试 超过 64 个切片(比如 100 个切片)上执行训练脚本时,SSH 命令会破坏 将切片分成几批。它将在第一批 64 和 64 并等待脚本完成运行,然后再在 剩余 36 个切片。不过,在其余 36 个 slice 开始运行脚本之前,第一个批次的 64 个 slice 无法完成,从而导致死锁。

为避免这种情况,您可以通过将“&”符号 (&) 附加到使用 --command 标志指定的脚本命令,在每个虚拟机上在后台运行训练脚本。执行此操作时,在启动训练脚本后, 在第一批切片上,控制权将立即返回到 SSH 命令然后,SSH 命令可以开始对剩余的 36 个 slice 批处理运行训练脚本。在后台运行命令时,您需要适当地管道传输 stdoutstderr 流。如需提高同一二维码中的并行度,您可以使用 --node 参数选择特定 slice。

网络设置

通过执行以下步骤,确保 TPU 切片可以相互通信。 在每个切片上安装 JAX。如需了解详情,请参阅在 TPU Pod 切片上运行 JAX 代码。断言 len(jax.devices()) 等于多切片环境中的芯片数量。为此,请在每个 Slice 上运行:

  $ python3 -c 'import jax; print(jax.devices())'

如果您在四个 v4-16 的 slice 上运行此代码,每个 slice 有 8 个条状标签,四个 slice,jax.devices() 应返回总计 32 个条状标签(设备)。

列出二维码

您可以使用 queued-resources list 命令查看二维码的状态:

$ gcloud compute tpus queued-resources list

NAME        ZONE           NODE_COUNT  ACCELERATOR_TYPE  STATE
...
que-res-id  us-central2-b  4           v4-16             ACTIVE
...

描述二维码

如需查看二维码的详细配置和状态,请使用 describe QR API。您可以使用 gcloudcurl 调用此 API。

使用 gcloud

$ gcloud compute tpus queued-resources describe ${your-qr-id}
...state:
 state: ACTIVE
...

使用 curl

$ curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://tpu.googleapis.com/v2/projects/your-project-id/locations/your-zone/queuedResources/${your-qr-id}
{
  "name": your-queued-res,
  "tpu": {
    "nodeSpec": [
      {
        ... // node 1
      },
      {
        ... // node 2
      },
      ...
    ]
  },
  ...
  "state": "ACTIVE"
}

state 表示二维码的状态。如需详细了解 QR 的可能状态,请参阅已排队的资源

在预配的环境中启动作业

您可以通过 SSH 连接到每个 slice 中的所有主机,并在所有主机上运行以下命令,以手动运行工作负载。

$ gcloud compute tpus tpu-vm ssh your-qr-id \
  --zone=your-zone \
  --worker=all \
  --node=all \
  --command="command-to-run"

重置二维码

ResetQueuedResource API 可用于重置 ACTIVE QR 中的所有虚拟机。重置虚拟机会强制擦除机器的内存,并将虚拟机重置为初始状态。本地存储的所有数据都将保持不变,重置后系统会调用启动脚本。当您想重启所有 TPU 时,ResetQueuedResource API 会非常有用。例如,当训练卡住时,重置所有虚拟机比调试更容易。

所有虚拟机的重置都是并行执行的,并且 ResetQueuedResource 需要一到两分钟才能完成如需调用该 API,请使用以下命令:

$ gcloud compute tpus queued-resources reset your-qr-id

删除二维码

如需在训练会话结束时释放资源,请使用 --force 标志删除队列中的资源。删除操作需要 2 到 5 分钟才能完成,并且可以使用可选的 --async 标志在后台运行。

$ gcloud compute tpus queued-resources \
delete your-qr-id --force (--async)

自动故障恢复

如果发生服务中断,Multislice 可实现无干预 修复受影响的切片并重置所有切片系统会将受影响的 slice 替换为新的 slice,并重置其余正常的 slice。如果没有可用容量来分配替换 slice,则训练会停止。

如需在中断后自动恢复训练,您必须指定一个用于检查并加载上次保存的检查点的启动脚本。每当重新分配 slice 或重置虚拟机时,系统都会自动运行启动脚本。你指定一家初创公司 脚本。

以下启动脚本(在创建二维码中使用) 让您可以从故障中自动恢复并从中恢复训练, MaxText 训练期间存储在 Cloud Storage 存储桶中的检查点:

{
 "tpu": {
   "node_spec": [
     {
      ...
         "metadata": {
               "startup-script": "#! /bin/bash \n pwd \n runuser -l user1 -c 'cd /home/user1/MaxText && python3 MaxText/train.py MaxText/configs/base.yml run_name=run_test_failure_recovery dcn_data_parallelism=4 ici_fsdp_parallelism=8 steps=10000 save_period=10 base_output_directory='gs://user1-us-central2'' EOF"
         }
     ...
     }
   ]
 }
}

请先克隆 MaxText 代码库,然后再尝试执行此操作 。

性能分析和调试

在单切片环境和多切片环境中,性能分析是相同的。对于 如需了解详情,请参阅剖析 JAX 程序的性能

优化培训

使用多切片进行分片,以获得最佳性能

若要在多切片环境中实现最高性能,需要考虑如何跨多个切片进行分片。通常有三种选择(数据并行性、完全分片数据并行性和流水线并行性)。我们不建议跨模型维度对激活进行分片(有时 称为并行张量),因为它需要过多的切片间带宽。 对于所有这些策略,您都可以在切片中保留过去行之有效的分片策略。

我们建议从纯数据并行处理入手。使用完全分片的数据并行处理有助于释放内存用量。缺点是,切片之间的通信会使用 DCN 网络,这会降低工作负载速度。仅在必要时根据批次大小使用流水线并行处理 (如下文分析)。

何时使用数据并行处理

如果您的工作负载运行良好,但您希望通过跨多个 slice 扩缩来提高其性能,那么纯数据并行处理非常适合。

为了实现跨多个 slice 的强扩缩,在 DCN 上执行全局求和所需的时间需要短于执行向后传递所需的时间。DCN 用于切片与 是工作负载吞吐量的限制因素。

每个 v4 TPU 芯片的峰值性能为每秒 275 * 1012 FLOPS。

每个 TPU 主机有 4 个芯片,每个主机的最大网络带宽为 50 Gbps。

也就是说,算术强度 为 4 * 275 * 1012 FLOPS / 50 Gbps = 22000 FLOPS / 位。

您的模型会为每个步骤的每个参数使用 32 到 64 位的 DCN 带宽。 如果您使用两个 slice,则模型将使用 32 位 DCN 带宽。如果您使用多个 slice,编译器将执行完全随机全求和操作,并且您将在每个步骤中为每个参数使用最多 64 位 DCN 带宽。每个参数所需的 FLOPS 量会因模型而异。具体而言,对于基于 Transformer 的语言模型,FLOPS 的数量 所需的正向和反向传递大约为 6 * B * P,其中:

  • B 是批处理大小(以令牌为单位)
  • P 是参数数量

每个参数的 FLOPS 数量为 6 * B,而 FLOPS 数量为每个参数 为 4 * B

为了确保跨多个 Slice 进行强扩缩,请确保操作强度超过 TPU 硬件的算术强度。要计算 计算操作强度,请用每个参数的 FLOPS 数量除以 每个步骤的每个参数向后传递网络带宽(以位为单位): Operational Intensity = FLOPSbackwards_pass / DCN bandwidth

因此,对于基于 Transformer 的语言模型,如果您使用两个 slice: Operational intensity = 4 * B / 32

如果您使用两个以上的 Slice:Operational intensity = 4 * B/64

这表明 Transformer 的最小批次大小在 176k 到 352k 之间 构建自己的语言模型。由于 DCN 网络可能短暂地丢弃数据包 最好保留明显的容错空间,仅部署数据并行处理 如果每个 Pod 的批次大小至少为 350k(两个 Pod)到 700k(许多 Pod)。

对于其他模型架构,您需要估算应用的 每个切片向后传递(使用性能分析器计时或计数) FLOPS)。然后,您可以将其与预期运行时间进行比较, DCN,并大致了解数据并行处理是否适合您。

何时使用完全分片数据并行处理 (FSDP)

完全分片的数据并行处理 (FSDP) 将数据并行处理(将数据分片到各个节点)与将权重分片到各个节点相结合。对于正向和反向传递中的每个操作,系统都会收集所有权重,以便每个 slice 都具有所需的权重。我们不像使用 all-reduce,则梯度在生成时进行归约散射。这样, 每个切片仅获取其所负责的权重的梯度。

与数据并行性类似,FSDP 需要将全局批处理大小按 slice 数量线性缩放。随着 slice 数量的增加,FSDP 会降低内存压力。这是因为 每个切片的优化器状态减少,但代价是增加的 并更有可能因 组织。

实际上,如果您按每个切片的批量大小增加批量大小, 存储更多激活,以最大限度地减少在 向后传递或增加神经网络中的参数数量。

FSDP 中的 all-gather 和 all-reduce 操作与 DP 中的类似。 因此您可以确定 FSDP 工作负载是否受到 DCN 性能的限制, 创建容器。

何时使用流水线并行处理

在使用其他 Google Cloud 产品实现高性能时, 并行处理策略,这些策略要求全局批次大小超过 首选最大批次大小。流水线并行处理允许切片 组成流水线来“共享”处理。但是,流水线并行处理 明显的缺点:

  1. 会产生“管道气泡”芯片处于空闲状态 数据。
  2. 它需要进行微批处理,这会减少有效批量大小、算术强度,并最终降低模型 FLOP 利用率。

只有在其他并行策略需要过大的全局批量大小时,才应使用流水线并行处理。在尝试并行处理流水线之前 值得进行实验,以凭经验判断每个样本的收敛速度是否在 实现高性能 FSDP 所需的批次大小。FSDP 往往能够 更高的模型 FLOP 利用率,但如果每个样本的收敛速度随着 批次大小流水线并行处理可能仍是更好的选择。大多数工作负载可以容忍足够大的批处理大小,因此无法从流水线并行性中受益,但您的工作负载可能有所不同。

如果需要流水线并行处理,我们建议将其与数据结合使用 即 FSDP。这样,您就可以最大限度地缩短流水线深度,同时增加每个流水线的批处理大小,直到 DCN 延迟时间对吞吐量的影响变小。具体而言,如果您有 N 个切片,不妨考虑 数据并行处理深度为 2 和 N/2 的副本,然后为深度为 4 和 N/4 的流水线 数据并行副本等,直到每个流水线的批次变大 DCN 集合可以隐藏在 反向传递。这样可以最大限度地缩短流水线 同时允许扩容超过全局批次大小限制。

多切片最佳实践

数据加载

在训练期间,我们会反复从数据集中加载批量数据,以馈送给模型。使用高效的异步数据加载器,将批量数据分片 对避免资源耗尽 TPU 的工作负担至关重要。当前数据加载器 让每个主机加载相等的样本子集。此解决方案是 足以处理文本,但需要在模型中重新分片。此外,MaxText 目前尚未提供允许数据迭代器的确定性快照 以便在抢占前和抢占后加载相同的数据。

检查点

Orbax 检查点库提供了用于将 JAX PyTree 检查点到本地存储空间或 Google Cloud 存储空间的原语。我们在 MaxText 中提供了同步检查点的参考集成 在 checkpointing.py 中。

受支持的配置

形状

所有 Slice 的形状必须相同(例如,相同的 AcceleratorType)。 不支持异构切片形状。

编排

GKE 支持编排。如需了解详情,请参阅 GKE 中的 TPU

框架

多切片仅支持 JAX 和 PyTorch 工作负载。

最大并行数量

我们建议用户使用数据并行处理功能测试多切片。如需详细了解如何使用 Multislice 实现流水线并行处理,请与您的 Google Cloud 客户代表联系。

支持与反馈

欢迎您提供任何反馈!如需分享反馈或请求支持,请使用 Cloud TPU 支持或反馈表单与我们联系。