使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

TPU 区域和可用区

概览

TPU 类型的主要区别在于价格、性能、内存容量和可用区可用性。

Google Cloud Platform 使用区域(可细分为可用区)定义物理计算资源的地理位置。例如,us-central1 区域表示美国地理中心附近的区域。创建 TPU 节点时,您可以指定要在哪个可用区创建。如需详细了解区域和可用区资源,请参阅 Compute Engine 全球资源、区域资源和可用区资源文档。

您可以在下表中显示的可用区中创建 v2 或 v3 TPU 配置。

美国

TPU 类型 (v2) TPU v2 核心数 TPU 总内存 区域/地区
v2-8 8 64 GiB us-central1-b
us-central1-c
us-central1-f
v2-32 32 256 GiB us-central1-a
v2-128 128 1 TiB us-central1-a
v2-256 256 2 TiB us-central1-a
v2-512 512 4 TiB us-central1-a
TPU 类型 (v3) TPU v3 核心数 TPU 总内存 可用地区
v3-8 8 128 GiB us-central1-a
us-central1-b
us-central1-f

欧洲

TPU 类型 (v2) TPU v2 核心数 TPU 总内存 区域/地区
v2-8 8 64 GiB europe-west4-a
v2-32 32 256 GiB europe-west4-a
v2-128 128 1 TiB europe-west4-a
v2-256 256 2 TiB europe-west4-a
v2-512 512 4 TiB europe-west4-a
TPU 类型 (v3) TPU v3 核心数 TPU 总内存 可用地区
v3-8 8 128 GiB europe-west4-a
v3-32 32 512 GiB europe-west4-a
v3-64 64 1 TiB europe-west4-a
v3-128 128 2 TiB europe-west4-a
v3-256 256 4 TiB europe-west4-a
v3-512 512 8 TiB europe-west4-a
v3-1024 1024 16 TiB europe-west4-a
v3-2048 2048 32 TiB europe-west4-a

亚太地区

TPU 类型 (v2) TPU v2 核心数 TPU 总内存 区域/地区
v2-8 8 64 GiB asia-east1-c

芯片或核心数较多的 TPU 类型仅在有限数量中提供。芯片或核心数较低的 TPU 类型更可能可用。

计算性价比

为了确定要使用哪种类型的 TPU,您可以使用 Cloud TPU 教程进行实验,训练与您的应用类似的模型。

运行教程时,您需要用到在 v2-8v3-8 TPU 类型上运行完整训练的步骤数的 5-10%。该结果显示了在每种 TPU 类型上运行该模型所需步数所需的时间。

由于 TPU 类型的性能呈线性扩缩,如果您知道在 v2-8v3-8 TPU 上运行任务所需的时间,则可以估算在具有更多芯片或核心的较大 TPU 类型上运行模型可以缩短的任务时间。

例如,如果 v2-8 TPU 类型需要 60 分钟到 10000 步,v2-32 节点应该需要大约 15 分钟来执行相同的任务。

当您了解模型在几种不同 TPU 上的大致训练时长后,您就可以对照训练时长来权衡虚拟机/TPU 的费用,从而确定性价比最佳的配置。

要确定 Cloud TPU 和相关 Compute Engine 虚拟机的不同 TPU 类型之间的费用差异,请参阅 TPU 价格页面

指定 TPU 类型

无论您使用哪种框架、TensorFlow、PyTorch 或 JAX,请在启动 TPU 时通过 accelerator-type 参数指定 v2v3 TPU 类型。TPU 类型命令取决于您使用的是 TPU 虚拟机还是 TPU 节点。管理 TPU 中显示了示例命令。

后续步骤

  • 如需查看每个区域中 TPU 的价格,请参阅价格页面。
  • 如需详细了解 TPU 架构,请参阅系统架构页面。
  • 请参阅何时使用 TPU,了解非常适合 Cloud TPU 的模型类型。