Vertex AI 上的生成式 AI 的配额和系统限制

本页面介绍了使用生成式 AI 服务的两种方式，提供了按区域和模型列出的配额列表，并展示了如何在 Google Cloud 控制台中查看和修改配额。

概览

您可以通过两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo)，也可以使用“预配吞吐量”预先付费。

如果您使用的是 PayGo，则您对生成式 AI 功能的使用受以下配额系统之一的约束，具体取决于您使用的模型：

Gemini 2.0 之前的模型针对每个生成式 AI 模型使用标准配额系统，以帮助确保公平性并减少资源使用和可用性的激增。配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
较新的模型使用动态共享配额 (DSQ)，该配额会针对特定模型和区域，在所有客户之间动态分配可用的 PayGo 容量，从而无需设置配额和提交配额增加请求。DSQ 没有配额。

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级，请参阅预配吞吐量。

按模型列出的配额系统

以下模型支持动态共享配额 (DSQ)：

以下旧版 Gemini 模型支持 DSQ：

Gemini 1.5 Pro
Gemini 1.5 Flash

非 Gemini 模型和较早的 Gemini 模型使用标准配额系统。如需了解详情，请参阅 Vertex AI 配额和限制。

MaaS 第三方模型使用标准配额，如需了解详情，请参阅每个模型的参考页面：使用合作伙伴模型。

已调优的模型配额

已调优的模型推理与基本模型共享同一配额。已调优的模型推理没有单独的配额。

文本嵌入限制

每个请求最多可包含 250 个输入文本（每个输入文本生成 1 个嵌入）和 2 万个词元。系统仅使用每个输入文本中的前 2,048 个词元来计算嵌入。对于 gemini-embedding-001，配额列在名称 gemini-embedding 下。

每个基本模型每分钟的嵌入内容输入词元数

与之前主要受 RPM 配额限制的嵌入模型不同，Gemini 嵌入模型的配额限制了每个项目每分钟可发送的词元数。

Quota	值
每分钟的嵌入内容输入词元数	5,000,000

Vertex AI Agent Engine 限制

以下限制适用于每个区域中给定项目的 Vertex AI Agent Engine：

说明	限制
每分钟创建、删除或更新的 Vertex AI Agent Engine 数	10
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数	100
每分钟 `Query` 或 `StreamQuery` Vertex AI Agent Engine 数	90
每分钟向 Vertex AI Agent Engine 会话附加的事件数	300
Vertex AI Agent Engine 资源数上限	100
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数	100
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数	300
每分钟的沙盒环境（代码执行）执行请求数	1000
每个区域的沙盒环境（代码执行）实体数	1000
每分钟的 A2A 智能体 POST 请求数（例如 `sendMessage` 和 `cancelTask`）	60
每分钟的 A2A 智能体 GET 请求数（例如 `getTask` 和 `getCard`）	600
每分钟使用 `BidiStreamQuery` API 的并发实时双向连接数	10

批量预测

批量推理作业的配额和限制在所有区域中都是相同的。

Gemini 模型的并发批量推理作业限制

Gemini 模型的批量推理没有预定义的配额限制。相反，批量服务提供对大型共享资源池的访问权限，并根据模型在所有客户中的实时可用性和需求动态分配资源。当更多客户处于活跃状态并使模型容量达到饱和时，您的批量请求可能会因容量不足而排队。

非 Gemini 模型的并发批量推理作业配额

下表列出了并发批量推理作业数的配额，这些配额不适用于 Gemini 模型：

Quota	值
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

如果提交的任务数量超过分配的配额，则会将任务放入队列中，并在配额容量可用时进行处理。

在 Google Cloud 控制台中查看和修改配额

如需在 Google Cloud 控制台中查看和修改配额，请执行以下操作：

前往配额和系统限制页面。

前往“配额和系统限制”

如需调整配额，请在过滤条件中复制和粘贴属性 aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs。按 Enter 键。
点击行末的三个点，然后选择修改配额。
在窗格中输入新的配额值，然后点击提交请求。

Vertex AI RAG 引擎

对于使用 RAG 引擎执行检索增强生成 (RAG) 的每项服务，以下配额适用，配额以每分钟请求数 (RPM) 为单位进行计量。

服务	Quota	指标
RAG 引擎数据管理 API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 您可以指定其他过滤条件，即 `base_model: textembedding-gecko`

适用的限制如下：

服务	限制	指标
并发 `ImportRagFiles` 请求数	3 RPM	`VertexRagService concurrent import requests per region`
每个 `ImportRagFiles` 请求的文件数上限	10,000	`VertexRagService import rag files requests per region`

如需了解更多速率限制和配额，请参阅 Vertex AI 上的生成式 AI 的速率限制。

Gen AI Evaluation Service

Gen AI Evaluation Service 使用 gemini-2.0-flash 作为基于模型的指标的默认评判模型。对基于模型的指标的单个评估请求可能会导致对 Gen AI Evaluation Service 发出多个底层请求。每个模型的配额按项目计算，这意味着定向到 gemini-2.0-flash 进行模型推理和基于模型的评估的任何请求都会计入配额。下表显示了 Gen AI Evaluation Service 和底层评判模型的配额：

请求配额	默认配额
每分钟的 Gen AI Evaluation Service 请求数	每个区域中每个项目 1,000 个请求
`base_model: gemini-2.0-flash` 的每分钟在线预测请求数	请参阅按区域和模型列出的配额。

如果您在使用 Gen AI Evaluation Service 时收到与配额相关的错误，则可能需要提交配额增加请求。如需了解详情，请参阅查看和管理配额。

限制	值
Gen AI Evaluation Service 请求超时	60 秒

在新项目中首次使用 Gen AI Evaluation Service 时，您可能会遇到初始设置延迟，最长可达两分钟。如果第一个请求失败，请等待几分钟，然后重试。后续评估请求通常会在 60 秒内完成。

基于模型的指标的输入和输出词元数上限取决于用作评判模型的模型。如需查看模型列表，请参阅 Google 模型。

Vertex AI Pipelines 配额

每个调优作业都使用 Vertex AI Pipelines。如需了解详情，请参阅 Vertex AI Pipelines 配额和限制。

后续步骤

如需详细了解动态共享配额，请参阅动态共享配额。
如需了解 Vertex AI 的配额和限制，请参阅 Vertex AI 配额和限制。
如需详细了解 Google Cloud 配额和系统限制，请参阅 Cloud 配额文档。