Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的 Google Cloud 资源的数量。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护 Google Cloud 用户社区。配额还可帮助您管理自己的 Google Cloud 资源。
Cloud 配额系统执行以下操作:
- 监控 Google Cloud 产品和服务的消耗情况
- 限制这些资源的消耗量
- 提供请求更改配额值的方法
在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。
配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。
按区域和模型的配额
每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。以下示例展示了如何应用 RPM 配额:
对基本模型
gemini-1.0-pro
的请求和对其稳定版本gemini-1.0-pro-001
的请求会计为两个请求,计入基本模型gemini-1.0-pro
的 RPM 配额。对基本模型的两个版本
gemini-1.0-pro-001
和gemini-1.0-pro-002
的请求会计为两个请求,计入基本模型gemini-1.0-pro
的 RPM 配额。对两个基本模型版本(
gemini-1.0-pro-001
和名为my-tuned-chat-model
的调优后版本)的请求会计为两个请求,计入基本模型gemini-1.0-pro
。
此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
在 Google Cloud 控制台中查看配额
如需在 Google Cloud 控制台中查看配额,请执行以下操作:
- 在 Google Cloud 控制台中,进入 IAM 和管理配额页面。
- 在过滤条件字段中,指定维度或指标。
维度(模型标识符) | 指标(Gemini 模型的配额标识符) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
您可以请求调整以下指标:
|
所有其他模型 | 您只能调整一个配额:
|
选择一个区域以查看每个可用模型的配额限制:
速率限制
以下速率限制适用于指标 generate_content_input_tokens_per_minute_per_base_model
的所有区域中列出的模型:
基本模型 | 每分钟词元数 |
---|---|
base_model: gemini-1.5-flash |
400 万 (4,000,000) |
base_model: gemini-1.5-pro |
400 万 (4,000,000) |
批量请求
批量请求的配额和限制在所有区域中都是相同的。
并发批量请求数
下表列出了并发批量请求数量的配额:
配额 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs |
1 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
1 |
如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。
批量请求限制
下表列出了每个批量文本生成请求的大小限制。
模型 | 限制 |
---|---|
gemini-1.5-pro |
5 万条记录 |
gemini-1.5-flash |
15 万条记录 |
gemini-1.0-pro |
15 万条记录 |
gemini-1.0-pro-vision |
5 万条记录 |
自定义训练模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型
配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU *受支持的区域 - us-central1 * 受支持的区域 - us-east4 |
8 2 |
* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。
文本嵌入限制
在 us-central1
区域使用 text-embedding-004
模型时,输入文本数上限为 250。在其他区域,输入文本数上限为 5。
每个输入文本的词元限制为 2,048。
Gen AI Evaluation Service 配额
Gen AI Evaluation Service 使用 gemini-1.5-pro
作为判断模型和机制,以确保对基于模型的指标进行一致和客观的评估。
对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-1.5-pro
进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。
请求配额 | 默认配额 |
---|---|
每分钟的 Gen AI Evaluation Service 请求数 | 每个区域中每个项目 1,000 个请求 |
base_model: gemini-1.5-pro 的每分钟在线预测请求数量 |
请参阅按区域和模型的配额。 |
如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
限制 | 值 |
---|---|
Gen AI Evaluation Service 请求超时 | 60 秒 |
新项目中首次使用 Gen AI Evaluation Service 的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。
根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。
Vertex AI for RAG 上的 LlamaIndex 配额
以下配额适用于在 Vertex AI 上使用 LlamaIndex 执行检索增强生成 (RAG):
服务 | 配额 |
---|---|
LlamaIndex on Vertex AI 数据管理 API | 每分钟 60 个请求 (RPM) |
RetrievalContexts API |
1,500 RPM |
base_model: textembedding-gecko |
1,500 RPM |
在线预测请求数1 | 30,000 RPM |
数据注入 | 1000 个文件 |
1此配额仅适用于公共端点。专用端点每分钟的请求数不受限制。
流水线评估配额
如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。
评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs
。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 | 配额 | 建议 |
---|---|---|
Vertex AI API | 每个区域的并发 LLM 批量预测作业数 | 逐点:1 * num_concurrent_pipelines 成对:2 * num_concurrent_pipelines |
Vertex AI API | 每个区域每分钟的评估请求数 | 1000 * num_concurrent_pipelines |
此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:
Tasks | 配额 | 基本模型 | 建议 |
---|---|---|---|
summarization question_answering |
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
Vertex AI Reasoning Engine
以下配额和限制适用于每个区域中给定项目的 Vertex AI Reasoning Engine。
配额 | 值 |
---|---|
每分钟创建/删除/更新的 Reasoning Engine 数量 | 10 |
每分钟的查询 Reasoning Engine 数量 | 60 |
Reasoning Engine 资源数量上限 | 100 |
错误代码 429
如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429
。下表显示了每种配额框架生成的错误消息:
配额框架 | 消息 |
---|---|
Pay-as-you-go | Resource exhausted, please try again later. |
预配的吞吐量 | Too many requests. Exceeded the provisioned throughput. |
使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429
。虽然您没有预留的容量,但可以再次尝试发出请求。但是,如服务等级协议 (SLA) 中所述,该请求不会计入您的错误率。
对于已购买预配的吞吐量的项目,Vertex AI 会衡量项目的吞吐量并预留该吞吐量,以使项目可用。如果您使用的吞吐量少于购买的吞吐量,则本可能以 429
返回的错误会以 5XX
返回,并计入 SLA 中所述的错误率。
Pay-as-you-go
在随用随付配额框架中,您可以通过以下方式来解决 429
错误:
- 使用截断指数退避算法实现重试策略。
- 如果您已设置使用方替换值并配置它以控制费用,请提高此限制。如需了解详情,请参阅动态共享配额。
- 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配的吞吐量。
预配的吞吐量
如需更正预配的吞吐量产生的错误,请执行以下操作:
- 使用默认示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
- 增加预配的吞吐量订阅中的 GSU 数量。
增加配额
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。