配额政策

AI Platform Prediction 会限制资源的分配和使用,并按项目实施相应的配额。具体政策取决于资源可用性、用户个人资料、服务使用记录和其他因素,如有更改,恕不另行通知。

以下部分概述了系统当前的配额限制。

服务请求数限制

在每 60 秒时间范围内,您可以发送的 API 请求数是受限的。每项限制都适用于特定的 API 或 API 组,具体如以下各节所述。

您可以在 适用于 AI Platform Prediction 的 API 管理器 使用 Google Cloud 控制台如果要申请增加配额,请点击配额限制旁边的修改图标,然后点击申请更高配额

作业请求数

以下限制适用于 projects.jobs.create 请求(训练作业和批量预测作业的请求数之和):

周期 限制
60 秒 60

在线预测请求数

以下限制适用于 projects.predict 请求:

周期 限制
60 秒 60 万

资源管理请求数

以下限制适用于此列表中所有受支持请求的数量之和:

周期 限制
60 秒 300

此外,对于上面列出的所有 delete 请求和所有版本 create 请求,总并发请求数不能超过 10 个

资源配额

除了一段时间内的请求数限制之外,您对资源的使用也受到一定限制,具体如下面的列表所示:

  • 最大模型数量:100。
  • 最大版本数量:200。版本数量限制针对的是项目中的版本总数,您可以根据需要分配给各个有效模型。

模型大小上限

创建模型版本时,如果您使用旧的 (MLS1) 机器类型,则模型目录内文件的总大小不能超过 500 MB;如果您使用 Compute Engine (N1) 机器类型,则总大小不能超过 10 GB。详细了解用于在线预测的机器类型

您不能申请提高这些模型大小上限。

虚拟机并发用量限额

项目的 Google Cloud 处理资源用量根据其使用的虚拟机数量来衡量。本部分将介绍在您的整个项目中并发使用这些资源时的一些限制。

批量预测时的并发节点数限制

项目在首次使用 AI Platform Prediction 时,用于批量预测的并发节点数通常会受到如下限制:

  • 并发预测节点数:72。

在线预测时的节点用量

AI Platform Prediction 未对在线预测节点用量设置任何配额。如需了解详情,请参阅预测节点和资源分配

在线预测时的并发 vCPU 用量限额

如果您使用 Compute Engine (N1) 机器类型,则首次使用 AI Platform Prediction 时,典型项目会受到每个区域端点上如下所示的并发 vCPU 数量的限制。不同的区域端点可能有不同的配额,并且项目的配额可能随时间而变化。

每个区域端点的并发 vCPU 总数

  • us-central1:450
  • us-east1:450
  • us-east4:20
  • us-west1:450
  • northamerica-northeast1:20
  • europe-west1:450
  • europe-west2:20
  • europe-west3:20
  • europe-west4:450
  • asia-east1:450
  • asia-northeast1:20
  • asia-southeast1:450
  • australia-southeast1:20

以上是默认配额,您可以申请增加配额

在线预测时的并发 GPU 用量限额

首次使用 AI Platform Prediction 时,典型项目会受到每个区域端点上如下所示的并发 GPU 数量的限制。不同的区域端点可能有不同的配额,并且项目的配额可能随时间而变化。

并发 GPU 总数:这是可并发使用的 GPU 数量上限,按类型和区域端点划分如下:

  • 并发 Tesla P4 GPU 数量
    • us-central1:2
    • us-east4:2
    • northamerica-northeast1:2
    • europe-west4:2
    • asia-southeast1:2
    • australia-southeast1:2
  • 并发 Tesla P100 GPU 数量
    • us-central1:30
    • us-east1:30
    • us-west1:30
    • europe-west1:30
    • asia-southeast1:30
  • 并发 Tesla T4 GPU 数量
    • us-central1:6
    • us-east1:6
    • us-west1:6
    • europe-west2:2
    • europe-west4:6
    • asia-northeast1:2
    • asia-southeast1:6
  • 并发 Tesla V100 GPU 数量
    • us-central1:2
    • us-west1:2
    • europe-west4:2

以上是默认配额,您可以申请增加配额

您用于预测的 GPU 计为 Compute Engine 的 GPU,而且拥有 AI Platform Prediction 配额并不表示您可以使用任何配有 GPU 的 Compute Engine 虚拟机。如果您想要启动配有 GPU 的 Compute Engine 虚拟机,则需要按 Compute Engine 文档中所述申请 Compute Engine GPU 配额。

如需了解详情,请参阅如何使用 GPU 进行在线预测

申请增加配额

本页所列的配额是按项目分配的,可能会随使用时间的推移而增加。如果您需要更多的处理能力,可以通过以下方式申请增加配额:

  • 您可以使用 Google Cloud 控制台申请增加 AI Platform Prediction 的 API 管理器中列出的项目 ID:

    1. 找到要增加的配额所在的部分。

    2. 在相应配额的使用情况图表底部,点击配额值旁边的铅笔图标。

    3. 输入您要申请增加到的目标额度:

      • 如果您所需的配额值未超出配额上限对话框中所示的范围,请输入新值,然后点击保存

      • 如果要将配额增加到超过所示上限的水平,请点击申请更高配额,然后按照第二种方法的说明申请提高配额。

  • 如果要增加 Google Cloud 控制台中未列出的配额(例如 GPU 配额),请使用 AI Platform 配额申请表来申请增加配额。我们会尽最大努力处理这些请求 这意味着,我们在审核这些请求时不会涉及服务等级协议 (SLA) 或服务等级目标 (SLO)。

后续步骤