配额用于限制您的 Google Cloud 项目可使用的共享 Google Cloud 资源(包括硬件、软件和网络组件)的数量。因此,有以下功能的系统具有配额:
- 监控 Google Cloud 产品和服务的使用情况或消耗情况。
- 出于某些原因限制这些资源的消耗量,包括确保公平性和减少使用量高峰。
- 维护可自动强制执行规定限制的配置。
- 提供请求或更改配额的方法。
在大多数情况下,当超过配额时,系统会立即阻止对相关 Google 资源的访问,并且您尝试执行的任务将失败。在大多数情况下,配额适用于每个 Google Cloud 项目,并由使用该 Google Cloud 项目的所有应用和 IP 地址共享。
按区域和模型的配额
每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。例如,对 gemini-1.0-pro
的请求和对 gemini-1.0-pro-001
的请求会计为两个请求,计入基本模型 gemini-1.0-pro
的 RPM 配额。同样,对 gemini-1.0-pro-001
和 gemini-1.0-pro-002
的请求会计为两个请求,计入基本模型 gemini-1.0-pro
的 RPM 配额。这同样适用于调优后的模型,因此对 gemini-1.0-pro-001
的请求和基于 gemini-1.0-pro-001
且名为 my-tuned-chat-model
的调优后模型会计为两个请求,计入基本模型 gemini-1.0-pro
。
此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
如需在 Google Cloud 控制台中查看配额,请执行以下操作:
- 在 Google Cloud 控制台中,进入 IAM 和管理配额页面。
- 在过滤条件字段中,指定维度或指标。
维度(模型标识符) | 指标(Gemini 模型的配额标识符) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
您可以请求调整以下指标:
|
所有其他模型 | 您只能调整一个配额:
|
选择一个区域以查看每个可用模型的配额限制:
速率限制
以下速率限制适用于指标 generate_content_input_tokens_per_minute_per_base_model
的所有区域中列出的模型:
基本模型 | 每分钟词元数 |
---|---|
base_model: gemini-1.5-flash |
400 万 (4,000,000) |
base_model: gemini-1.5-pro |
400 万 (4,000,000) |
批量配额
对于 Vertex AI 上的生成式 AI 批量预测作业,以下配额和限制在所有区域中都是相同的:
配额 | 值 |
---|---|
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
自定义训练模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型
配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU *受支持的区域 - us-central1 * 受支持的区域 - us-east4 |
8 2 |
* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。
在线评估配额
评估在线服务使用 text-bison
模型作为使用 Google IP 提示和机制的自动评估器,以确保对基于模型的指标进行一致和客观的评估。
对基于模型的指标的单个评估请求可能会导致对在线预测服务发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 text-bison
进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。
请求配额 | 默认配额 |
---|---|
每分钟的在线评估服务请求数 | 每个区域中每个项目 1,000 个请求 |
base_model 每分钟的在线预测请求数,base_model:text-bison |
每个区域中每个项目 1,600 个请求 |
如果您在使用评估在线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
限制 | 值 |
---|---|
在线评估服务请求超时 | 60 秒 |
新项目中首次使用在线评估服务的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。
根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。
Vertex AI for RAG 上的 LlamaIndex 配额
以下配额适用于在 Vertex AI 上使用 LlamaIndex 执行检索增强生成 (RAG):
服务 | 配额 |
---|---|
LlamaIndex on Vertex AI 数据管理 API | 每分钟 60 个请求 (RPM) |
RetrievalContexts API |
1,500 RPM |
base_model:textembedding-gecko |
1,500 RPM |
在线预测请求数1 | 30,000 RPM |
数据注入 | 1000 个文件 |
1此配额仅适用于公共端点。专用端点每分钟的请求数不受限制。
流水线评估配额
如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs
。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 | 配额 | 建议 |
---|---|---|
Vertex AI API | 每个区域的并发 LLM 批量预测作业数 | 逐点:1 * num_concurrent_pipelines 成对:2 * num_concurrent_pipelines |
Vertex AI API | 每个区域每分钟的评估请求数 | 1000 * num_concurrent_pipelines |
此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:
Tasks | 配额 | 基本模型 | 建议 |
---|---|---|---|
summarization question_answering |
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
动态共享配额
对于支持动态共享配额的服务,Google Cloud 会在要处理的所有查询之间分配按需容量。使用此功能,您无需提交配额增加请求 (QIR)。
如需将使用方替换值作为费用控制措施应用于您的项目,并防止预算超支,请参阅创建使用方配额替换值。
如果您需要指定的最大吞吐量,请与您的 Google Cloud 客户代表联系,了解预配的吞吐量。
您还可以通过 Google Cloud 控制台中的配额和系统限制来监控用量。
如需了解支持动态共享配额的模型,请参阅使用 Anthropic 中的 Claude 模型。
动态共享配额的工作原理示例
Google Cloud 会查看特定区域(如北美洲)中的可用容量,然后查看有多少客户正在发送请求。假设客户 A 每分钟发送 25 次查询 (QPM),客户 B 发送 25 QPM。该服务可以支持 100 QPM。如果客户 A 将其查询速率增加到 75 QPM,则动态共享配额支持增加。如果客户 A 将其查询速率增加到 100 QPM,则动态共享配额会将客户 A 的查询速率降低到 75 QPM,以便以 25 QPM 继续为客户 B 提供服务。
如需排查使用动态共享配额时可能发生的错误,请参阅排查配额错误。
增加配额
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。
后续步骤
- 了解 Vertex AI 配额和限制。
- 详细了解 Google Cloud 配额和限制。