本页面介绍旧版模型的配额和限制。旧版模型系列中的模型不再使用新的稳定版本进行更新。如需了解详情,请参阅旧版模型信息。
配额用于限制您的 Google Cloud 项目可使用的共享 Google Cloud 资源(包括硬件、软件和网络组件)的数量。因此,有以下功能的系统具有配额:
- 监控 Google Cloud 产品和服务的使用情况或消耗情况。
- 出于某些原因限制这些资源的消耗量,包括确保公平性和减少使用量高峰。
- 维护可自动强制执行规定限制的配置。
- 提供请求或更改配额的方法。
在大多数情况下,当超过配额时,系统会立即阻止对相关 Google 资源的访问,并且您尝试执行的任务将失败。在大多数情况下,配额适用于每个 Google Cloud 项目,并由使用该 Google Cloud 项目的所有应用和 IP 地址共享。
按区域和模型的配额
每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。例如,对 text-bison
的请求和对 text-bison@001
的请求会计为两个请求,计入基本模型 text-bison
的 RPM 配额。同样,对 text-bison@001
和 text-bison@002
的请求会计为两个请求,计入基本模型 text-bison
的 RPM 配额。这同样适用于调优后的模型,因此对 chat-bison@002
的请求和基于 chat-bison@002
且名为 my-tuned-chat-model
的调优后模型会计为两个请求,计入基本模型 chat-bison
。
此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
如需在 Google Cloud 控制台中查看配额,请执行以下操作:
- 在 Google Cloud 控制台中,进入 IAM 和管理配额页面。
在过滤条件字段中,指定维度或指标。
维度:模型标识符。例如
base_model:gemini-1.0-pro
或base_model:text-bison
。指标:PaLM 2 模型的配额标识符为
aiplatform.googleapis.com/online_prediction_requests_per_base_model
选择一个区域以查看每个可用模型的配额限制:
批量配额
对于 Vertex AI 上的生成式 AI 批量预测作业,以下配额和限制在所有区域中都是相同的:
配额 | 值 |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
自定义训练模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型
配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU *受支持的区域 - us-central1 * 受支持的区域 - us-east4 |
8 2 |
* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。
在线评估配额
评估在线服务使用 text-bison
模型作为使用 Google IP 提示和机制的自动评估器,以确保对基于模型的指标进行一致和客观的评估。
对基于模型的指标的单个评估请求可能会导致对在线预测服务发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 text-bison
进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。
请求配额 | 默认配额 |
---|---|
每分钟的在线评估服务请求数 | 每个区域中每个项目 1,000 个请求 |
base_model 每分钟的在线预测请求数,base_model:text-bison |
每个区域中每个项目 1,600 个请求 |
如果您在使用评估在线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
限额 | 值 |
---|---|
在线评估服务请求超时 | 60 秒 |
新项目中首次使用在线评估服务的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。
根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。
流水线评估配额
如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs
。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 | 配额 | 建议 |
---|---|---|
Vertex AI API | 每个区域的并发 LLM 批量预测作业数 | 逐点:1 * num_concurrent_pipelines 成对:2 * num_concurrent_pipelines |
Vertex AI API | 每个区域每分钟的评估请求数 | 1000 * num_concurrent_pipelines |
此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:
任务 | 配额 | 基本模型 | 建议 |
---|---|---|---|
summarization question_answering |
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
增加配额
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。
后续步骤
- 了解 Vertex AI 配额和限制。
- 详细了解 Google Cloud 配额和限制。