此旧版 AI Platform Prediction 已弃用，2025 年 1 月 31 日之后将不再在 Google Cloud 上提供。2025 年 1 月 31 日之后，所有模型、关联的元数据和部署都将被删除。将资源迁移至 Vertex AI 即可获取 AI Platform 没有的新机器学习功能。

此页面由 Cloud Translation API 翻译。

配额政策

AI Platform Prediction 会限制资源的分配和使用，并按项目实施相应的配额。具体政策取决于资源可用性、用户个人资料、服务使用记录和其他因素，如有更改，恕不另行通知。

以下部分概述了系统当前的配额限制。

服务请求数限制

在每 60 秒时间范围内，您可以发送的 API 请求数是受限的。每项限制都适用于特定的 API 或 API 组，具体如以下各节所述。

您可以在 Google Cloud 控制台中的 AI Platform Prediction 的 API 管理器中查看项目的请求配额。如果要申请增加配额，请点击配额限制旁边的修改图标，然后点击申请更高配额。

作业请求数

以下限制适用于 projects.jobs.create 请求（训练作业和批量预测作业的请求数之和）：

周期	限制
60 秒	60

在线预测请求数

以下限制适用于 projects.predict 请求：

周期	限制
60 秒	60 万

资源管理请求数

以下限制适用于此列表中所有受支持请求的数量之和：

针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 list 请求。
针对 projects.jobs、projects.models、projects.models.versions 和 projects.operations 的 get 请求。
针对 projects.models 和 projects.models.versions 的 delete 请求。
针对 projects.models 和 projects.models.versions 的 create 请求。
针对 projects.jobs 和 projects.operations 的 cancel 请求。
针对 projects.models.versions.setDefault 的请求。

周期	限制
60 秒	300

此外，对于上面列出的所有 delete 请求和所有版本 create 请求，总并发请求数不能超过 10 个。

资源配额

除了一段时间内的请求数限制之外，您对资源的使用也受到一定限制，具体如下面的列表所示：

最大模型数量：100。
最大版本数量：200。版本数量限制针对的是项目中的版本总数，您可以根据需要分配给各个有效模型。

模型大小上限

创建模型版本时，如果您使用旧的 (MLS1) 机器类型，则模型目录内文件的总大小不能超过 500 MB；如果您使用 Compute Engine (N1) 机器类型，则总大小不能超过 10 GB。详细了解用于在线预测的机器类型。

您不能申请提高这些模型大小上限。

虚拟机并发用量限额

项目的 Google Cloud 处理资源用量根据其使用的虚拟机数量来衡量。本部分将介绍在您的整个项目中并发使用这些资源时的一些限制。

批量预测时的并发节点数限制

项目在首次使用 AI Platform Prediction 时，用于批量预测的并发节点数通常会受到如下限制：

并发预测节点数：72。

在线预测时的节点用量

AI Platform Prediction 未对在线预测节点用量设置任何配额。如需了解详情，请参阅预测节点和资源分配。

在线预测时的并发 vCPU 用量限额

如果您使用 Compute Engine (N1) 机器类型，则首次使用 AI Platform Prediction 时，典型项目会受到每个区域端点上如下所示的并发 vCPU 数量的限制。不同的区域端点可能有不同的配额，并且项目的配额可能随时间而变化。

每个区域端点的并发 vCPU 总数：

us-central1：450
us-east1：450
us-east4：20
us-west1：450
northamerica-northeast1：20
europe-west1：450
europe-west2：20
europe-west3：20
europe-west4：450
asia-east1：450
asia-northeast1：20
asia-southeast1：450
australia-southeast1：20

以上是默认配额，您可以申请增加配额。

在线预测时的并发 GPU 用量限额

首次使用 AI Platform Prediction 时，典型项目会受到每个区域端点上如下所示的并发 GPU 数量的限制。不同的区域端点可能有不同的配额，并且项目的配额可能随时间而变化。

并发 GPU 总数：这是可并发使用的 GPU 数量上限，按类型和区域端点划分如下：

并发 Tesla P4 GPU 数量：
- us-central1：2
- us-east4：2
- northamerica-northeast1：2
- europe-west4：2
- asia-southeast1：2
- australia-southeast1：2
并发 Tesla P100 GPU 数量：
- us-central1：30
- us-east1：30
- us-west1：30
- europe-west1：30
- asia-southeast1：30
并发 Tesla T4 GPU 数量：
- us-central1：6
- us-east1：6
- us-west1：6
- europe-west2：2
- europe-west4：6
- asia-northeast1：2
- asia-southeast1：6
并发 Tesla V100 GPU 数量：
- us-central1：2
- us-west1：2
- europe-west4：2

以上是默认配额，您可以申请增加配额。

您用于预测的 GPU 不计为 Compute Engine 的 GPU，而且拥有 AI Platform Prediction 配额并不表示您可以使用任何配有 GPU 的 Compute Engine 虚拟机。如果您想要启动配有 GPU 的 Compute Engine 虚拟机，则需要按 Compute Engine 文档中所述申请 Compute Engine GPU 配额。

如需了解详情，请参阅如何使用 GPU 进行在线预测。

申请增加配额

本页所列的配额是按项目分配的，可能会随使用时间的推移而增加。如果您需要更多的处理能力，可以通过以下方式申请增加配额：

使用 Google Cloud 控制台申请增加 AI Platform Prediction 的 API 管理器中列出的配额：
1. 找到要增加的配额所在的部分。
2. 在相应配额的使用情况图表底部，点击配额值旁边的铅笔图标。
3. 输入您要申请增加到的目标额度：
  - 如果您所需的配额值未超出配额上限对话框中所示的范围，请输入新值，然后点击保存。
  - 如果要将配额增加到超过所示上限的水平，请点击申请更高配额，然后按照第二种方法的说明申请提高配额。
如果要增加 Google Cloud 控制台中未列出的配额（例如 GPU 配额），请使用 AI Platform 配额申请表来申请增加配额。我们会尽力处理这些请求，这意味着在审核这些请求时，不会涉及服务等级协议 (SLA) 或服务等级目标 (SLO)。