Vertex AI 上的生成式 AI 速率限制

Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用的 Google Cloud 资源的数量。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护 Google Cloud 用户社区。配额还可帮助您管理自己的 Google Cloud 资源。

Cloud 配额系统执行以下操作:

  • 监控 Google Cloud 产品和服务的消耗情况
  • 限制这些资源的消耗量
  • 提供请求更改配额值的方法。

在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。

配额通常在 Google Cloud 项目级层应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。

按区域和模型的配额

每分钟的请求数 (RPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。例如,对 gemini-1.0-pro 的请求和对 gemini-1.0-pro-001 的请求会计为两个请求,计入基本模型 gemini-1.0-pro 的 RPM 配额。同样,对 gemini-1.0-pro-001gemini-1.0-pro-002 的请求会计为两个请求,计入基本模型 gemini-1.0-pro 的 RPM 配额。这同样适用于调优后的模型,因此对 gemini-1.0-pro-001 的请求和基于 gemini-1.0-pro-001 且名为 my-tuned-chat-model 的调优后模型会计为两个请求,计入基本模型 gemini-1.0-pro

此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。

如需在 Google Cloud 控制台中查看配额,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入 IAM 和管理配额页面。

    在控制台中查看配额

  2. 过滤条件字段中,指定维度或指标。
维度(模型标识符) 指标(Gemini 模型的配额标识符)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
您可以请求调整以下指标:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
所有其他模型 您只能调整一个配额:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

选择一个区域以查看每个可用模型的配额限制:

速率限制

以下速率限制适用于指标 generate_content_input_tokens_per_minute_per_base_model 的所有区域中列出的模型:

基本模型 每分钟词元数
base_model: gemini-1.5-flash 400 万 (4,000,000)
base_model: gemini-1.5-pro 400 万 (4,000,000)

批量请求

批量请求的配额和限制在所有区域中都是相同的。

并发批量请求数

下表列出了并发批量请求数量的配额:

配额
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs 1
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 1

如果提交的任务数量超过分配的配额,则会将任务放入队列中,并在配额容量可用时进行处理。

批量请求限制

下表列出了每个批量文本生成请求的大小限制。

模型 限制
gemini-1.5-pro 5 万条记录
gemini-1.5-flash 15 万条记录
gemini-1.0-pro 15 万条记录
gemini-1.0-pro-vision 5 万条记录

自定义训练模型配额

以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型

配额
每个区域的受限图片训练 TPU V3 pod 核心数
*受支持的区域 - europe-west4
64
每个区域的受限图片训练 Nvidia A100 80GB GPU
*受支持的区域 - us-central1
* 受支持的区域 - us-east4

8
2

* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。

在线评估配额

评估在线服务使用 Gemini 1.5 模型作为使用 Google IP 提示和机制的自动评估器,以确保对基于模型的指标进行一致和客观的评估。

对基于模型的指标的单个评估请求可能会导致对在线预测服务发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 Gemini 1.5 进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。

请求配额 默认配额
每分钟的在线评估服务请求数 每个区域中每个项目 1,000 个请求
base_model: gemini-1.5-pro 的每分钟在线预测请求数量 请参阅按区域和模型的配额

如果您在使用评估在线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

限制
在线评估服务请求超时 60 秒

新项目中首次使用在线评估服务的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。

根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。

Vertex AI for RAG 上的 LlamaIndex 配额

以下配额适用于在 Vertex AI 上使用 LlamaIndex 执行检索增强生成 (RAG)

服务 配额
LlamaIndex on Vertex AI 数据管理 API 每分钟 60 个请求 (RPM)
RetrievalContexts API 1,500 RPM
base_model: textembedding-gecko 1,500 RPM
在线预测请求数1 30,000 RPM
数据注入 1000 个文件

1此配额仅适用于公共端点。专用端点每分钟的请求数不受限制。

流水线评估配额

如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:

服务 配额 建议
Vertex AI API 每个区域的并发 LLM 批量预测作业数 逐点:1 * num_concurrent_pipelines

成对:2 * num_concurrent_pipelines
Vertex AI API 每个区域每分钟的评估请求数 1000 * num_concurrent_pipelines

此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:

Tasks 配额 基本模型 建议
summarization
question_answering
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

动态共享配额

对于支持动态共享配额的服务,Google Cloud 会在要处理的所有查询之间分配按需容量。借助此功能,您无需提交配额增加请求 (QIR)。

如果您想控制费用并防止预算超支,您可以配置自行应用的配额(称为使用方配额替换值)。如需了解详情,请参阅创建使用方配额替换值

如果您需要优先流量,请使用预配吞吐量

您还可以通过 Google Cloud 控制台中的配额和系统限制来监控用量。

如需了解支持动态共享配额的模型,请参阅使用 Anthropic 中的 Claude 模型

动态共享配额的工作原理示例

Google Cloud 会查看特定区域(如北美洲)中的可用容量,然后查看有多少客户正在发送请求。假设客户 A 每分钟发送 25 次查询 (QPM),客户 B 发送 25 QPM。该服务可以支持 100 QPM。如果客户 A 将其查询速率增加到 75 QPM,则动态共享配额支持增加。如果客户 A 将其查询速率增加到 100 QPM,则动态共享配额会将客户 A 的查询速率降低到 75 QPM,以便以 25 QPM 继续为客户 B 提供服务。

如需排查使用动态共享配额时可能发生的错误,请参阅排查配额错误

错误代码 429

如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429。下表显示了每种配额框架生成的错误消息:

配额框架 消息
Pay-as-you-go Resource exhausted, please try again later.
预配的吞吐量 Too many requests. Exceeded the provisioned throughput.

使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429。虽然您没有预留的容量,但可以再次尝试发出请求。但是,如服务等级协议 (SLA) 中所述,该请求不会计入您的错误率。

对于已购买预配的吞吐量的项目,Vertex AI 会衡量项目的吞吐量并预留该吞吐量,以使项目可用。如果您使用的吞吐量少于购买的吞吐量,则本可能以 429 返回的错误会以 5XX 返回,并计入 SLA 中所述的错误率。

Pay-as-you-go

在随用随付配额框架中,您可以通过以下方式来解决 429 错误:

  • 使用截断指数退避算法实现重试策略。
  • 如果您已设置使用方替换值并配置它以控制费用,请提高此限制。如需了解详情,请参阅动态共享配额
  • 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配的吞吐量

预配的吞吐量

如需更正预配的吞吐量产生的错误,请执行以下操作:

  • 使用默认示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
  • 增加预配的吞吐量订阅中的 GSU 数量。

增加配额

若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额

后续步骤