Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的 Google Cloud 资源的数量。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护 Google Cloud 用户社区。配额还可帮助您管理自己的 Google Cloud 资源。
Cloud 配额系统执行以下操作:
- 监控 Google Cloud 产品和服务的消耗情况
- 限制这些资源的消耗量
- 提供请求更改配额值的方法
在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。
配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。
速率限制
下表列出了针对指标generate_content_input_tokens_per_minute_per_base_model
在所有区域内适用于以下模型的速率限制:
基本模型 | 每分钟令牌数 |
---|---|
base_model: gemini-1.5-flash |
400 万 (4,000,000) |
base_model: gemini-1.5-pro |
400 万 (4,000,000) |
如需了解 Gemini 1.5 Flash 002 版 (gemini-1.5-flash-002
) 和 Gemini 1.5 Pro 002 版 (gemini-1.5-pro-002
) 的配额信息,请参阅 Google 模型。
按区域和模型的配额
每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。以下示例展示了如何应用 RPM 配额:- 对基本模型
gemini-1.0-pro
的请求和对其稳定版本gemini-1.0-pro-001
的请求会计为两个请求,计入基本模型gemini-1.0-pro
的 RPM 配额。 - 对基本模型的两个版本 `gemini-1.0-pro-001` 和 `gemini-1.0-pro-002` 的请求会计为两个请求,计入基本模型 `gemini-1.0-pro` 的 RPM 配额。
- 对两个基本模型版本(`gemini-1.0-pro-001` 和名为 `my-tuned-chat-model` 的调优后版本)的请求会计为两个请求,计入基本模型 `gemini-1.0-pro`。
在 Google Cloud 控制台中查看配额
如需在 Google Cloud 控制台中查看配额,请执行以下操作:- 在 Google Cloud 控制台中,前往“IAM 和管理”的配额页面。
- 点击在控制台中查看配额。
- 在过滤条件字段中,指定维度或指标。
维度(型号标识符) | 指标(Gemini 模型的配额标识符) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
您可以请求调整以下指标:
|
所有其他型号 | 您只能调整一项配额:
|
按区域和模型查看配额
选择一个区域以查看每个可用模型的配额限制:
增加配额
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。
RAG 引擎配额
对于使用 RAG Engine 执行检索增强生成 (RAG) 的每项服务,都适用以下配额,配额以每分钟请求数 (RPM) 为单位。服务 | 配额 | 指标 |
---|---|---|
RAG 引擎数据管理 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 您可以指定的其他过滤条件是 base_model: textembedding-gecko |
服务 | 限制 | 指标 |
---|---|---|
并发 ImportRagFiles 请求 |
3 RPM | VertexRagService concurrent import requests per region |
每个 ImportRagFiles 请求的文件数上限 |
10000 | VertexRagService import rag files requests per region |
如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 速率限制。
批量请求
批量请求的配额和限制在所有区域中都是相同的。并发批量请求数
下表列出了并发批量请求数量的配额:配额 | 值 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
批量请求限制
下表列出了每个批量生成文本请求的大小限制。模型 | 限额 |
---|---|
gemini-1.5-pro |
5 万条记录 |
gemini-1.5-flash |
15 万条记录 |
gemini-1.0-pro |
15 万条记录 |
gemini-1.0-pro-vision |
5 万条记录 |
自定义训练模型配额
以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型:配额 | 值 |
---|---|
每个区域的受限图片训练 TPU V3 pod 核心数 *受支持的区域 - europe-west4 |
64 |
每个区域的受限图片训练 Nvidia A100 80GB GPU * 支持的区域 - us-central1 * 支持的区域 - us-east4 |
8 2 |
文本嵌入限制
每个文本嵌入模型请求最多可以包含 250 个输入文本(每个输入文本生成 1 个嵌入),每个请求最多可以包含 2 万个令牌。系统仅使用每个输入文本中的前 2,048 个令牌来计算嵌入。
Gen AI Evaluation Service 服务配额
Gen AI Evaluation Service 使用gemini-1.5-pro
作为判断模型,并使用机制来确保对基于模型的指标进行一致和客观的评估。
对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-1.5-pro
进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了 Gen AI Evaluation Service 的配额和底层自动评估器模型的配额。
请求配额 | 默认配额 |
---|---|
每分钟的 Gen AI Evaluation Service 请求数 | 每个区域中每个项目 1,000 个请求 |
base_model: gemini-1.5-pro 的每分钟在线预测请求数量 |
请参阅按区域和模型的配额。 |
限额 | 值 |
---|---|
Gen AI Evaluation Service 请求超时 | 60 秒 |
流水线评估配额
如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。 评估流水线服务使用 Vertex AI Pipelines 来运行PipelineJobs
。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 | 配额 | 建议 |
---|---|---|
Vertex AI API | 每个区域的并发 LLM 批量预测作业数 | 逐点:1 * num_concurrent_pipelines 成对:2 * num_concurrent_pipelines |
Vertex AI API | 每个区域每分钟的评估请求数 | 1000 * num_concurrent_pipelines |
Tasks | 配额 | 基本模型 | 建议 |
---|---|---|---|
summarization question_answering |
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制。
Vertex AI Reasoning Engine
以下配额和限制适用于每个区域中给定项目的 Vertex AI Reasoning Engine。配额 | 值 |
---|---|
每分钟创建/删除/更新的 Reasoning Engine 数量 | 10 |
每分钟的查询 Reasoning Engine 数量 | 60 |
Reasoning Engine 资源数量上限 | 100 |
排查错误代码 429 的问题
如需排查 429 错误,请参阅错误代码 429。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和限制,请参阅了解配额值和系统限制。