Vertex AI 上的生成式 AI 速率限制

Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的 Google Cloud 资源的数量。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护 Google Cloud 用户社区。配额还可帮助您管理自己的 Google Cloud 资源。

Cloud 配额系统执行以下操作:

  • 监控 Google Cloud 产品和服务的消耗情况
  • 限制这些资源的消耗量
  • 提供请求更改配额值的方法

在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。

配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。

速率限制

下表列出了针对指标 generate_content_input_tokens_per_minute_per_base_model 在所有区域内适用于以下模型的速率限制:
基本模型 每分钟令牌数
base_model: gemini-1.5-flash 400 万 (4,000,000)
base_model: gemini-1.5-pro 400 万 (4,000,000)

如需了解 Gemini 1.5 Flash 002 版 (gemini-1.5-flash-002) 和 Gemini 1.5 Pro 002 版 (gemini-1.5-pro-002) 的配额信息,请参阅 Google 模型

按区域和模型的配额

每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。以下示例展示了如何应用 RPM 配额:
  • 对基本模型 gemini-1.0-pro 的请求和对其稳定版本 gemini-1.0-pro-001 的请求会计为两个请求,计入基本模型 gemini-1.0-pro 的 RPM 配额。
  • 对基本模型的两个版本 `gemini-1.0-pro-001` 和 `gemini-1.0-pro-002` 的请求会计为两个请求,计入基本模型 `gemini-1.0-pro` 的 RPM 配额。
  • 对两个基本模型版本(`gemini-1.0-pro-001` 和名为 `my-tuned-chat-model` 的调优后版本)的请求会计为两个请求,计入基本模型 `gemini-1.0-pro`。
此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。

在 Google Cloud 控制台中查看配额

如需在 Google Cloud 控制台中查看配额,请执行以下操作:
  1. 在 Google Cloud 控制台中,前往“IAM 和管理”的配额页面。
  2. 点击在控制台中查看配额
  3. 过滤条件字段中,指定维度或指标。
维度(型号标识符) 指标(Gemini 模型的配额标识符)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
您可以请求调整以下指标:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
所有其他型号 您只能调整一项配额:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

按区域和模型查看配额

选择一个区域以查看每个可用模型的配额限制:

增加配额

若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额

RAG 引擎配额

对于使用 RAG Engine 执行检索增强生成 (RAG) 的每项服务,都适用以下配额,配额以每分钟请求数 (RPM) 为单位。
服务 配额 指标
RAG 引擎数据管理 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

您可以指定的其他过滤条件是 base_model: textembedding-gecko
存在以下限制:
服务 限制 指标
并发 ImportRagFiles 请求 3 RPM VertexRagService concurrent import requests per region
每个 ImportRagFiles 请求的文件数上限 10000 VertexRagService import rag files requests per region

如需了解更多速率限制和配额,请参阅 Vertex AI 上的生成式 AI 速率限制

批量请求

批量请求的配额和限制在所有区域中都是相同的。

并发批量请求数

下表列出了并发批量请求数量的配额:
配额
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。

批量请求限制

下表列出了每个批量生成文本请求的大小限制。
模型 限额
gemini-1.5-pro 5 万条记录
gemini-1.5-flash 15 万条记录
gemini-1.0-pro 15 万条记录
gemini-1.0-pro-vision 5 万条记录

自定义训练模型配额

以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型:
配额
每个区域的受限图片训练 TPU V3 pod 核心数
*受支持的区域 - europe-west4
64
每个区域的受限图片训练 Nvidia A100 80GB GPU
* 支持的区域 - us-central1
* 支持的区域 - us-east4

8
2
* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。

文本嵌入限制

每个文本嵌入模型请求最多可以包含 250 个输入文本(每个输入文本生成 1 个嵌入),每个请求最多可以包含 2 万个令牌。系统仅使用每个输入文本中的前 2,048 个令牌来计算嵌入。

Gen AI Evaluation Service 服务配额

Gen AI Evaluation Service 使用 gemini-1.5-pro 作为判断模型,并使用机制来确保对基于模型的指标进行一致和客观的评估。 对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 gemini-1.5-pro 进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了 Gen AI Evaluation Service 的配额和底层自动评估器模型的配额。
请求配额 默认配额
每分钟的 Gen AI Evaluation Service 请求数 每个区域中每个项目 1,000 个请求
base_model: gemini-1.5-pro 的每分钟在线预测请求数量 请参阅按区域和模型的配额
如果您在使用 Gen AI 评估服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额
限额
Gen AI Evaluation Service 请求超时 60 秒
新项目中首次使用 Gen AI Evaluation Service 的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。 根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制

流水线评估配额

如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额。 评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:
服务 配额 建议
Vertex AI API 每个区域的并发 LLM 批量预测作业数 逐点:1 * num_concurrent_pipelines

成对:2 * num_concurrent_pipelines
Vertex AI API 每个区域每分钟的评估请求数 1000 * num_concurrent_pipelines
此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:
Tasks 配额 基本模型 建议
summarization
question_answering
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

Vertex AI Reasoning Engine

以下配额和限制适用于每个区域中给定项目的 Vertex AI Reasoning Engine
配额
每分钟创建/删除/更新的 Reasoning Engine 数量 10
每分钟的查询 Reasoning Engine 数量 60
Reasoning Engine 资源数量上限 100

排查错误代码 429 的问题

如需排查 429 错误,请参阅错误代码 429

后续步骤