此页面由 Cloud Translation API 翻译。

旧版模型的配额限制

本页介绍了旧版模型的配额和限制。旧版模型系列中的模型不再使用新的稳定版本进行更新。如需了解详情，请参阅旧版模型信息。

Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的 Google Cloud 资源的数量。配额适用于一系列资源类型，包括硬件、软件和网络组件。例如，配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载，从而保护 Google Cloud 用户社区。配额还可帮助您管理自己的 Google Cloud 资源。

Cloud 配额系统执行以下操作：

监控 Google Cloud 产品和服务的消耗情况
限制这些资源的消耗量
提供请求更改配额值的方法

在大多数情况下，当您尝试消耗的资源超出其配额允许的范围时，系统会阻止对资源的访问，并且您尝试执行的任务会失败。

配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中，配额在所有应用和 IP 地址间共享。

按区域和模型的配额

每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。例如，对 text-bison 的请求和对 text-bison@002 的请求会计为两个请求，计入基本模型 text-bison 的 RPM 配额。这同样适用于调优后的模型，因此对 chat-bison@002 的请求和基于 chat-bison@002 且名为 my-tuned-chat-model 的调优后模型会计为两个请求，计入基本模型 chat-bison。

此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。

如需在 Google Cloud 控制台中查看配额，请执行以下操作：

在 Google Cloud 控制台中，进入 IAM 和管理配额页面。

在控制台中查看配额
在过滤条件字段中，指定维度或指标。
- 维度：模型标识符。例如 base_model:gemini-1.0-pro 或 base_model:text-bison。
- 指标：PaLM 2 模型的配额标识符为 aiplatform.googleapis.com/online_prediction_requests_per_base_model

选择一个区域以查看每个可用模型的配额限制：

批量配额

对于 Vertex AI 上的生成式 AI 批量预测作业，以下配额和限制在所有区域中都是相同的：

配额	值
`text_bison_concurrent_batch_prediction_jobs`	4
`code_bison_concurrent_batch_prediction_jobs`	4

自定义训练模型配额

以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型

配额	值
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4	64
每个区域的受限图片训练 Nvidia A100 80GB GPU 受支持的区域 - us-central1 受支持的区域 - us-east4	8 2

* 在特定区域中，调优场景具有加速器预留。支持调优配额，并且必须在特定区域中申请。

在线评估配额

评估在线服务使用 text-bison 模型作为使用 Google IP 提示和机制的自动评估器，以确保对基于模型的指标进行一致和客观的评估。

对基于模型的指标的单个评估请求可能会导致对在线预测服务发出多个底层请求。每个模型的配额按项目计算，这意味着定向到 text-bison 进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。

请求配额	默认配额
每分钟的在线评估服务请求数	每个区域中每个项目 1,000 个请求
base_model 每分钟的在线预测请求数，base_model：`text-bison`	每个区域中每个项目 1,600 个请求

如果您在使用评估在线服务时收到与配额相关的错误，则可能需要提交配额增加请求。如需了解详情，请参阅查看和管理配额。

限制	值
在线评估服务请求超时	60 秒

新项目中首次使用在线评估服务的用户可能会遇到初始设置延迟，通常最长可达两分钟。此过程是一次性的。如果第一个请求失败，请等待几分钟，然后重试。后续评估请求通常会在 60 秒内完成。

根据用作自动评估器的模型，基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。

流水线评估配额

如果您在使用评估流水线服务时收到与配额相关的错误，则可能需要提交配额增加请求。如需了解详情，请参阅查看和管理配额。

评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议：

服务	配额	建议
Vertex AI API	每个区域的并发 LLM 批量预测作业数	逐点：1 * num_concurrent_pipelines 成对：2 * num_concurrent_pipelines
Vertex AI API	每个区域每分钟的评估请求数	1000 * num_concurrent_pipelines

此外，在计算基于模型的评估指标时，自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器：

Tasks	配额	基本模型	建议
`summarization` `question_answering`	每个 base_model 每个区域每分钟每个基本模型的在线预测请求数	`text-bison`	60 * num_concurrent_pipelines

Vertex AI Pipelines

每个调优作业都使用 Vertex AI Pipelines。如需了解详情，请参阅 Vertex AI Pipelines 配额和限制。

增加配额

若要增加 Vertex AI 上的生成式 AI 的任何配额，您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额，请参阅使用配额。

后续步骤

了解 Vertex AI 配额和限制。
详细了解 Google Cloud 配额和限制。