打开一个 Cloud Shell 窗口。

打开 Cloud Shell
为项目 ID 创建一个变量。
```
export PROJECT_ID=project-id
```
配置 Google Cloud CLI，以使用您要创建 Cloud TPU 的项目。
```
gcloud config set project ${PROJECT_ID}
```
当您第一次在新的 Cloud Shell 虚拟机中运行此命令时，系统会显示 Authorize Cloud Shell 页面。点击页面底部的 Authorize 以允许 gcloud 使用您的凭据进行 API 调用。

从 v 启动本教程所需的 Compute Engine 资源。

gcloud compute --project=${PROJECT_ID} instances create transformer-tutorial \
--zone=us-central1-a  \
--machine-type=n1-standard-16  \
--image-family=torch-xla \
--image-project=ml-images  \
--boot-disk-size=200GB \
--scopes=https://www.googleapis.com/auth/cloud-platform

连接到新的 Compute Engine 实例。
```
gcloud compute ssh transformer-tutorial --zone=us-central1-a
```
要点：从现在起，前缀 (vm) $ 表示您应在 Compute Engine 虚拟机实例上运行该命令。

启动 Cloud TPU 资源

在 Compute Engine 虚拟机中，使用以下命令启动 Cloud TPU 资源：

(vm) $ gcloud compute tpus create transformer-tutorial \
--zone=us-central1-a \
--network=default \
--version=pytorch-2.0 \
--accelerator-type=v3-8

确定 Cloud TPU 资源的 IP 地址。
```
(vm) $ gcloud compute tpus list --zone=us-central1-a
```
该 IP 地址位于 NETWORK_ENDPOINTS 列下方。在创建和配置 PyTorch 环境时，您将需要该 IP 地址。

下载数据

创建一个用于存储模型数据的目录 pytorch-tutorial-data。
```
(vm) $ mkdir $HOME/pytorch-tutorial-data
```
导航到 pytorch-tutorial-data 目录。
```
(vm) $ cd $HOME/pytorch-tutorial-data
```

下载模型数据。

(vm) $ wget https://dl.fbaipublicfiles.com/fairseq/data/wmt18_en_de_bpej32k.zip

提取数据。

(vm) $ sudo apt-get install unzip && \
unzip wmt18_en_de_bpej32k.zip

创建并配置 PyTorch 环境

启动 conda 环境。
```
(vm) $ conda activate torch-xla-2.0
```
为 Cloud TPU 资源配置环境变量。
```
(vm) $ export TPU_IP_ADDRESS=ip-address; \
export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470"
```
注意：TPU_IP_ADDRESS 变量必须等于您在启动 Cloud TPU 资源时指定的 Cloud TPU 的 IP 地址。

训练模型

要训练模型，请运行以下脚本：

(vm) $ python /usr/share/torch-xla-2.0/tpu-examples/deps/fairseq/train.py \
  $HOME/pytorch-tutorial-data/wmt18_en_de_bpej32k \
  --save-interval=1 \
  --arch=transformer_vaswani_wmt_en_de_big \
  --max-target-positions=64 \
  --attention-dropout=0.1 \
  --no-progress-bar \
  --criterion=label_smoothed_cross_entropy \
  --source-lang=en \
  --lr-scheduler=inverse_sqrt \
  --min-lr 1e-09 \
  --skip-invalid-size-inputs-valid-test \
  --target-lang=de \
  --label-smoothing=0.1 \
  --update-freq=1 \
  --optimizer adam \
  --adam-betas '(0.9, 0.98)' \
  --warmup-init-lr 1e-07 \
  --lr 0.0005 \
  --warmup-updates 4000 \
  --share-all-embeddings \
  --dropout 0.3 \
  --weight-decay 0.0 \
  --valid-subset=valid \
  --max-epoch=25 \
  --input_shapes 128x64 \
  --num_cores=8 \
  --metrics_debug \
  --log_steps=100

注意：更改“input_shapes”超参数的值可能有助于提高性能。例如：

--input_shapes 256x64 512x32

这些更改会导致初始编译显著减慢，但稳定后的周期时间会更快。

要使用这些输入形状，必须启用 bfloat16。为此，请运行以下命令：

(vm) $ export XLA_USE_BF16=1

清理

使用您创建的资源后，请进行清理，以免您的帐号产生不必要的费用：

断开与 Compute Engine 实例的连接（如果您尚未这样做）：
```
(vm) $ exit
```
您的提示符现在应为 user@projectname，表明您位于 Cloud Shell 中。

在 Cloud Shell 中，使用 Google Cloud CLI 删除 Compute Engine 实例。

$  gcloud compute instances delete transformer-tutorial  --zone=us-central1-a

使用 Google Cloud CLI 删除 Cloud TPU 资源。

$  gcloud compute tpus delete transformer-tutorial --zone=us-central1-a

后续步骤

试用 PyTorch Colab：