抢占式 TPU

抢占式 TPU 的费用远低于非抢占式 TPU。如果 Cloud TPU 服务需要额外的 TPU 资源,可以随时抢占(关停)这些 TPU。

创建抢占式 TPU 虚拟机

gcloud

$ gcloud compute tpus tpu-vm create demo-tpu \
  --zone=europe-west4-a \
  --accelerator-type=v3-8 \
  --version=tpu-vm-tf-2.18.0-pjrt \
  --preemptible
  

其中:

抢占式 TPU 的价格与配额

抢占式 TPU 的价格远低于普通 TPU。 如需了解详情,请参阅价格页面。如果 TPU 在您创建后第一分钟就被抢占,您不需要支付费用。

抢占式 TPU 的配额通常较高,并且与普通 TPU 的配额相互独立。请参阅配额页面

检测 TPU 是否已被抢占

您可以使用以下 gcloud 命令检查 Cloud TPU 服务是否已抢占您的 TPU:

列出您的可用 TPU:

gcloud compute tpus tpu-vm list
  --zone=us-central1-b
  

该命令的输出结果会显示项目中创建的 TPU 的详细信息。如果 TPU 已被抢占,则状态会从 READY 更改为 PREEMPTED

例如:

NAME       ZONE           ACCELERATOR_TYPE  NETWORK_ENDPOINT   NETWORK  RANGE          STATUS
demo-tpu   us-central1-b  v2-8              10.240.1.2:8470    default  10.240.1.0/29  PREEMPTED

将机器学习应用设计为可在抢占式 TPU 上运行

通过定期保存模型检查点,同时配置应用以在重启时恢复最近的检查点,从而确保您的应用能够灵活应对虚拟机和 TPU 的重启。