AI Platform Prediction 会限制资源的分配和使用,并按项目实施相应的配额。具体政策取决于资源可用性、用户个人资料、服务使用记录和其他因素,如有更改,恕不另行通知。
以下部分概述了系统当前的配额限制。
服务请求数限制
在每 60 秒时间范围内,您可以发送的 API 请求数是受限的。每项限制都适用于特定的 API 或 API 组,具体如以下各节所述。
您可以在 Google Cloud 控制台中的 AI Platform Prediction 的 API 管理器中查看项目的请求配额。如果要申请增加配额,请点击配额限制旁边的修改图标,然后点击申请更高配额。
作业请求数
以下限制适用于 projects.jobs.create 请求(训练作业和批量预测作业的请求数之和):
周期 | 限制 |
---|---|
60 秒 | 60 |
在线预测请求数
以下限制适用于 projects.predict 请求:
周期 | 限制 |
---|---|
60 秒 | 60 万 |
资源管理请求数
以下限制适用于此列表中所有受支持请求的数量之和:
针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 list 请求。
针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 get 请求。
针对 projects.models 和 projects.models.versions 的 delete 请求。
针对 projects.models 和 projects.models.versions 的 create 请求。
针对 projects.jobs 和 projects.operations 的 cancel 请求。
周期 | 限制 |
---|---|
60 秒 | 300 |
此外,对于上面列出的所有 delete 请求和所有版本 create 请求,总并发请求数不能超过 10 个。
资源配额
除了一段时间内的请求数限制之外,您对资源的使用也受到一定限制,具体如下面的列表所示:
- 最大模型数量:100。
- 最大版本数量:200。版本数量限制针对的是项目中的版本总数,您可以根据需要分配给各个有效模型。
模型大小上限
创建模型版本时,如果您使用旧的 (MLS1) 机器类型,则模型目录内文件的总大小不能超过 500 MB;如果您使用 Compute Engine (N1) 机器类型,则总大小不能超过 10 GB。详细了解用于在线预测的机器类型。
您不能申请提高这些模型大小上限。
虚拟机并发用量限额
项目的 Google Cloud 处理资源用量根据其使用的虚拟机数量来衡量。本部分将介绍在您的整个项目中并发使用这些资源时的一些限制。
批量预测时的并发节点数限制
项目在首次使用 AI Platform Prediction 时,用于批量预测的并发节点数通常会受到如下限制:
- 并发预测节点数:72。
在线预测时的节点用量
AI Platform Prediction 未对在线预测节点用量设置任何配额。如需了解详情,请参阅预测节点和资源分配。
在线预测时的并发 vCPU 用量限额
如果您使用 Compute Engine (N1) 机器类型,则首次使用 AI Platform Prediction 时,典型项目会受到每个区域端点上如下所示的并发 vCPU 数量的限制。不同的区域端点可能有不同的配额,并且项目的配额可能随时间而变化。
每个区域端点的并发 vCPU 总数:
us-central1
:450us-east1
:450us-east4
:20us-west1
:450northamerica-northeast1
:20europe-west1
:450europe-west2
:20europe-west3
:20europe-west4
:450asia-east1
:450asia-northeast1
:20asia-southeast1
:450australia-southeast1
:20
以上是默认配额,您可以申请增加配额。
在线预测时的并发 GPU 用量限额
首次使用 AI Platform Prediction 时,典型项目会受到每个区域端点上如下所示的并发 GPU 数量的限制。不同的区域端点可能有不同的配额,并且项目的配额可能随时间而变化。
并发 GPU 总数:这是可并发使用的 GPU 数量上限,按类型和区域端点划分如下:
- 并发 Tesla P4 GPU 数量:
us-central1
:2us-east4
:2northamerica-northeast1
:2europe-west4
:2asia-southeast1
:2australia-southeast1
:2
- 并发 Tesla P100 GPU 数量:
us-central1
:30us-east1
:30us-west1
:30europe-west1
:30asia-southeast1
:30
- 并发 Tesla T4 GPU 数量:
us-central1
:6us-east1
:6us-west1
:6europe-west2
:2europe-west4
:6asia-northeast1
:2asia-southeast1
:6
- 并发 Tesla V100 GPU 数量:
us-central1
:2us-west1
:2europe-west4
:2
以上是默认配额,您可以申请增加配额。
您用于预测的 GPU 不计为 Compute Engine 的 GPU,而且拥有 AI Platform Prediction 配额并不表示您可以使用任何配有 GPU 的 Compute Engine 虚拟机。如果您想要启动配有 GPU 的 Compute Engine 虚拟机,则需要按 Compute Engine 文档中所述申请 Compute Engine GPU 配额。
如需了解详情,请参阅如何使用 GPU 进行在线预测。
申请增加配额
本页所列的配额是按项目分配的,可能会随使用时间的推移而增加。如果您需要更多的处理能力,可以通过以下方式申请增加配额:
使用 Google Cloud 控制台申请增加 AI Platform Prediction 的 API 管理器中列出的配额:
找到要增加的配额所在的部分。
在相应配额的使用情况图表底部,点击配额值旁边的铅笔图标。
输入您要申请增加到的目标额度:
如果您所需的配额值未超出配额上限对话框中所示的范围,请输入新值,然后点击保存。
如果要将配额增加到超过所示上限的水平,请点击申请更高配额,然后按照第二种方法的说明申请提高配额。
如果您想增加 Google Cloud 控制台中未列出的配额(例如 GPU 配额),请使用 AI Platform 配额申请表来申请增加配额。我们会尽力处理这些请求,这意味着在审核这些请求时,不会涉及服务等级协议 (SLA) 或服务等级目标 (SLO)。