配额

本文档列出了适用于 Cloud TPU 的配额。如需了解 Cloud TPU 价格,请参阅 Cloud TPU 价格

配额用于限制您的 Google Cloud 项目可使用的共享 Google Cloud 资源(包括硬件、软件和网络组件)的数量。因此,有以下功能的系统具有配额:

  • 监控 Google Cloud 产品和服务的使用情况或消耗情况。
  • 出于某些原因限制这些资源的消耗量,包括确保公平性和减少使用量高峰。
  • 维护可自动强制执行规定限制的配置。
  • 提供请求或更改配额的方法。

在大多数情况下,当超过配额时,系统会立即阻止对相关 Google 资源的访问,并且您尝试执行的任务将失败。在大多数情况下,配额适用于每个 Google Cloud 项目,并由使用该 Google Cloud 项目的所有应用和 IP 地址共享。

配额类型

如果您使用的是 GKE,请参阅确保足够的配额,详细了解 GKE 配额。如果您的 Cloud TPU API 配额是预留的、按需的和抢占式的 Cloud TPU 资源,则分别有各自的配额。下表对这两种配额进行了比较。

配额类型 说明 默认值 申请方式 用于创建 TPU 的标志
已预留 您保证拥有访问权限的 Cloud TPU 资源的数量。您必须签署预留协议才能访问预留资源。预留资源不受资源短缺的影响,但可能会中断。 0 如需申请预留配额,请与您的 Google Cloud 客户代表联系。 使用 --reserved 标志。
点播课程 您有权访问的按需资源数量。按需资源不会被抢占,但按需配额并不能保证有足够的可用 Cloud TPU 资源来满足您的请求。 v3-8 和 v2-8:16 个 TensorCore
所有其他:0
请参阅申请更多配额 无需标记,默认处于选中状态。
抢占式 您有权访问的抢占式 Cloud TPU 资源的数量。抢占式资源可能会被抢占,为更高优先级的作业腾出空间。抢占式配额不能保证有足够的可用 Cloud TPU 资源来满足您的请求。如需了解详情,请参阅抢占式 TPU v3-8 和 v2-8:48 个 TensorCore
所有其他:0
请参阅申请更多配额 对于 已加入队列的资源请求,请使用 --preemptible 标志或 --best-effort 标志。

配额的分配方式

Cloud TPU 配额的授予方式取决于您使用的 TPU 版本。

TPU v4 和 v5p

对于 TPU v4 和 v5p,可以按 TPU 芯片或 TensorCore 指定配额。您可以将配额以任意切片组合使用。例如,如果您有某个 v4-32 切片的配额,则可以使用此配额创建 4 个 v4-8 切片。

TPU v5e(训练和推断)

v5e 同时支持训练和推理。用于推理的 v5e 切片包括加速器类型为 v5litepod-1v5litepod-4v5litepod-8 的 TPU。按需 Cloud TPU 需要 tpu-v5s-litepod-serving 的配额,抢占式 Cloud TPU 需要 tpu-v5s-litepod-serving-preemptible 的配额,预留的 Cloud TPU 需要 tpu-v5s-litepod-serving-reserved 的配额。

TPU v2 和 v3

v2 和 v3 TPU 配额是根据 TensorCore 指定的。单个 TPU 设备包含四个 TPU 芯片和八个 TensorCore(每个芯片两个 TensorCore)。v2 和 v3 TPU 对单个 TPU 设备和 TPU Pod 有单独的配额。您不能将 v2 或 v3 TPU Pod 配额用于 v2-8 或 v3-8 TPU。例如,如果您有 v3-32 切片的配额,则无法用其创建四个 v3-8 TPU。

如需详细了解 TPU 芯片和 TensorCore,请参阅 TPU 系统架构

查看和申请更多配额

您可以在 Google Cloud 控制台的“配额”页面上查看为您的 Google Cloud 项目分配的配额。如果您需要额外的 Cloud TPU 配额,可以在“配额”页面中申请。如需了解详情,请参阅申请更高的配额上限