Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的Google Cloud 资源的数量。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护Google Cloud 用户社区。配额还可以帮助您管理自己的 Google Cloud 资源。
Cloud 配额系统执行以下操作:
在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。
配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。
速率限制
下表列出了针对指标generate_content_input_tokens_per_minute_per_base_model
在所有区域内适用于以下模型的速率限制:
基本模型 | 每分钟令牌数 |
---|---|
base_model: gemini-1.5-flash (版本 001) |
400 万 (4,000,000) |
base_model: gemini-1.5-pro (版本 001) |
400 万 (4,000,000) |
Gemini 2.0 Flash
下表列出了适用于 Gemini 2.0 Flash 的速率限制(针对所列指标,在支持的区域内):配额名称 | 每分钟令牌数 | |
---|---|---|
高媒体分辨率 中等媒体分辨率 默认 |
媒体分辨率较低 | |
generate_content_image_input_per_base_model_id_and_resolution |
|
|
generate_content_video_input_per_base_model_id_and_resolution |
|
|
generate_content_audio_input_per_base_model_id_and_resolution |
|
|
generate_content_document_input_per_base_model_id_and_resolution |
|
|
Gemini 2.0 Flash-Lite
下表列出了适用于 Gemini 2.0 Flash-Lite 的速率限制(适用于所列指标,且在支持的区域内均适用):配额名称 | 每分钟令牌数 | |
---|---|---|
高媒体分辨率 中等媒体分辨率 默认 |
媒体分辨率较低 | |
generate_content_image_input_per_base_model_id_and_resolution |
|
|
generate_content_video_input_per_base_model_id_and_resolution |
|
|
generate_content_audio_input_per_base_model_id_and_resolution |
|
|
generate_content_document_input_per_base_model_id_and_resolution |
|
|
如需了解 Gemini 1.5 Flash 002 版 (gemini-1.5-flash-002
) 和 Gemini 1.5 Pro 002 版 (gemini-1.5-pro-002
) 的配额信息,请参阅 Google 模型。
按区域和模型的配额
每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。以下示例展示了如何应用 RPM 配额:- 对基本模型
gemini-1.0-pro
的请求和对其稳定版本gemini-1.0-pro-001
的请求会计为两个请求,计入基本模型gemini-1.0-pro
的 RPM 配额。 - 对基本模型的两个版本 `gemini-1.0-pro-001` 和 `gemini-1.0-pro-002` 的请求会计为两个请求,计入基本模型 `gemini-1.0-pro` 的 RPM 配额。
- 对两个基本模型版本(`gemini-1.0-pro-001` 和名为 `my-tuned-chat-model` 的调优后版本)的请求会计为两个请求,计入基本模型 `gemini-1.0-pro`。
在 Google Cloud 控制台中查看配额
如需在 Google Cloud 控制台中查看配额,请执行以下操作:- 在 Google Cloud 控制台中,前往“IAM 和管理”的配额页面。
- 点击在控制台中查看配额。
- 在过滤条件字段中,指定维度或指标。
维度(型号标识符) | 指标(Gemini 模型的配额标识符) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
您可以请求调整以下指标:
|
所有其他模型 | 您只能调整一项配额:
|
按区域和模型查看配额
选择一个区域以查看每个可用模型的配额限制:
增加配额
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。
RAG 引擎配额
对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务,都适用以下配额,配额以每分钟请求数 (RPM) 为单位。服务 | 配额 | 指标 |
---|---|---|
RAG 引擎数据管理 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 您可以指定的其他过滤条件是 base_model: textembedding-gecko |
服务 | 限制 | 指标 |
---|---|---|
并发 ImportRagFiles 请求 |
3 RPM | VertexRagService concurrent import requests per region |
每个 ImportRagFiles 请求的文件数量上限 |
10000 | VertexRagService import rag files requests per region |
如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 速率限制。
批量请求
批量请求的配额和限制在所有区域中都是相同的。并发批量请求数限制
下表列出了并发批量请求数量的限制:配额 | 值 |
---|---|
Gemini 模型 | 8 |
并发批量请求配额
下表列出了并发批量请求数量的配额,这些配额不适用于 Gemini 模型:配额 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
自定义训练模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型:配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU * 支持的区域 - us-central1 * 支持的区域 - us-east4 |
8 2 |
文本嵌入限制
每个文本嵌入模型请求最多可以包含 250 个输入文本(每个输入文本生成 1 个嵌入),每个请求最多可以包含 2 万个词元。系统仅使用每个输入文本的前 2,048 个令牌来计算嵌入。
对于 text-embedding-large-exp-03-07
,每个输入文本中的前 8,192 个词元用于计算嵌入,并且每个请求只能包含一个输入文本。此模型的配额列在名称 text-embedding-large-001
下。
Gen AI Evaluation Service 服务配额
Gen AI Evaluation Service 使用gemini-1.5-pro
作为判断模型,并使用机制来确保对基于模型的指标进行一致和客观的评估。
对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-1.5-pro
进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了 Gen AI Evaluation Service 的配额和底层自动评估器模型的配额。
请求配额 | 默认配额 |
---|---|
每分钟的 Gen AI Evaluation Service 请求数 | 每个区域中每个项目 1,000 个请求 |
base_model: gemini-1.5-pro 的每分钟在线预测请求数量 |
请参阅按区域和模型的配额。 |
限额 | 值 |
---|---|
Gen AI Evaluation Service 请求超时 | 60 秒 |
流水线评估配额
如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。 评估流水线服务使用 Vertex AI Pipelines 来运行PipelineJobs
。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 | 配额 | 建议 |
---|---|---|
Vertex AI API | 每个区域的并发 LLM 批量预测作业数 | 逐点:1 * num_concurrent_pipelines 成对:2 * num_concurrent_pipelines |
Vertex AI API | 每个区域每分钟的评估请求数 | 1000 * num_concurrent_pipelines |
Tasks | 配额 | 基本模型 | 建议 |
---|---|---|---|
summarization question_answering |
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
Vertex AI Reasoning Engine
以下配额和限制适用于每个区域中给定项目的 Vertex AI Reasoning Engine。配额 | 值 |
---|---|
每分钟创建/删除/更新的 Reasoning Engine 数量 | 10 |
每分钟的 Query/StreamQuery Reasoning Engine 数量 | 60 |
Reasoning Engine 资源数量上限 | 100 |
排查错误代码 429 的问题
如需排查 429 错误,请参阅错误代码 429。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。