此页面由 Cloud Translation API 翻译。

在 TPU 切片上运行 JAX 代码

在运行本文档中的命令之前，请确保已按照设置账号和 Cloud TPU 项目中的说明操作。

在单个 TPU 板上运行 JAX 代码后，您可以通过在 TPU 切片上运行代码来扩容代码。 TPU 切片是通过专用高速网络连接相互连接的多个 TPU 板。本文档介绍了如何在 TPU 切片上运行 JAX 代码；如需了解更深入的信息，请参阅在多主机和多进程环境中使用 JAX。

创建 Cloud TPU 切片

创建一些环境变量：
```
export PROJECT_ID=your-project
export ACCELERATOR_TYPE=v5p-32
export ZONE=europe-west4-b
export RUNTIME_VERSION=v2-alpha-tpuv5
export TPU_NAME=your-tpu-name
```
环境变量说明

PROJECT_ID

您的 Google Cloud 项目 ID。

ACCELERATOR_TYPE

加速器类型用于指定您要创建的 Cloud TPU 的版本和大小。如需详细了解每个 TPU 版本支持的加速器类型，请参阅 TPU 版本。

ZONE

拟在其中创建 Cloud TPU 的可用区。

RUNTIME_VERSION

Cloud TPU 运行时版本。

TPU_NAME

用户为 Cloud TPU 分配的名称。

使用 gcloud 命令创建 TPU 切片。例如，如需创建 v5p-32 切片，请使用以下命令：

$ gcloud compute tpus tpu-vm create ${TPU_NAME}  \
--zone=${ZONE} \
--project=${PROJECT_ID} \
--accelerator-type=${ACCELERATOR_TYPE}  \
--version=${RUNTIME_VERSION}

在您的 slice 上安装 JAX

创建 TPU 切片后，您必须在 TPU 切片中的所有主机上安装 JAX。您可以使用 gcloud compute tpus tpu-vm ssh 命令并使用 --worker=all 和 --commamnd 参数来执行此操作。

gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
  --zone=${ZONE} \
  --project=${PROJECT_ID} \
  --worker=all \
  --command='pip install -U "jax[tpu]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'

在切片上运行 JAX 代码

要在 TPU 切片上运行 JAX 代码，您必须在 TPU 切片中的每个主机上运行代码。jax.device_count() 调用在它在 slice 中的每个主机上被调用之前将一直挂起。以下示例说明了如何在 TPU 切片上运行 JAX 计算。

准备代码

您需要 gcloud 344.0.0 版或更高版本（对于 scp 命令）。使用 gcloud --version 检查您的 gcloud 版本，并根据需要运行 gcloud components upgrade。

使用以下代码创建一个名为 example.py 的文件：


import jax

# The total number of TPU cores in the slice
device_count = jax.device_count()

# The number of TPU cores attached to this host
local_device_count = jax.local_device_count()

# The psum is performed over all mapped devices across the slice
xs = jax.numpy.ones(jax.local_device_count())
r = jax.pmap(lambda x: jax.lax.psum(x, 'i'), axis_name='i')(xs)

# Print from a single host to avoid duplicated output
if jax.process_index() == 0:
    print('global device count:', jax.device_count())
    print('local device count:', jax.local_device_count())
    print('pmap result:', r)

将 `example.py` 复制到该切片中的所有 TPU 工作器虚拟机

$ gcloud compute tpus tpu-vm scp ./example.py ${TPU_NAME}: \
  --worker=all \
  --zone=${ZONE} \
  --project=${PROJECT_ID}

如果您以前没有使用过 scp 命令，则可能会看到类似于以下内容的错误：

ERROR: (gcloud.alpha.compute.tpus.tpu-vm.scp) SSH Key is not present in the SSH
agent. Please run `ssh-add /.../.ssh/google_compute_engine` to add it, and try
again.

如需解决此错误，请运行错误消息中显示的 ssh-add 命令，并重新运行该命令。

在切片上运行代码

在每个虚拟机上启动 example.py 程序：

$ gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
  --zone=${ZONE} \
  --project=${PROJECT_ID} \
  --worker=all \
  --command="python3 ./example.py"

输出（使用 v4-32 切片生成）：

global device count: 16
local device count: 4
pmap result: [16. 16. 16. 16.]

清理

完成 TPU 虚拟机的操作后，请按照以下步骤清理资源。

断开与 Compute Engine 实例的连接（如果您尚未这样做）：
```
(vm)$ exit
```
您的提示符现在应为 username@projectname，表明您位于 Cloud Shell 中。

删除您的 Cloud TPU 和 Compute Engine 资源。

$ gcloud compute tpus tpu-vm delete ${TPU_NAME} \
  --zone=${ZONE} \
  --project=${PROJECT_ID}

通过运行 gcloud compute tpus execution-groups list 验证资源是否已删除。删除操作可能需要几分钟时间才能完成。以下命令的输出不应包含本教程中创建的任何资源：
```
$ gcloud compute tpus tpu-vm list --zone=${ZONE} \
--project=${PROJECT_ID}
```