Vertex AI 上的生成式 AI 的配额限制

配额用于限制您的 Google Cloud 项目可使用的共享 Google Cloud 资源(包括硬件、软件和网络组件)的数量。因此,有以下功能的系统具有配额:

  • 监控 Google Cloud 产品和服务的使用情况或消耗情况。
  • 出于某些原因限制这些资源的消耗量,包括确保公平性和减少使用量高峰。
  • 维护可自动强制执行规定限制的配置。
  • 提供请求或更改配额的方法。

在大多数情况下,当超过配额时,系统会立即阻止对相关 Google 资源的访问,并且您尝试执行的任务将失败。在大多数情况下,配额适用于每个 Google Cloud 项目,并由使用该 Google Cloud 项目的所有应用和 IP 地址共享。

按区域和模型的配额

每分钟的查询数 (QPM) 配额适用于基本模型以及该模型的所有版本、标识符和调优后版本。例如,对 text-bison 的请求和对 text-bison@001 的请求会计为两个请求,计入基本模型 text-bison 的 QPM 配额。同样,对 text-bison@001text-bison@002 的请求会计为两个请求,计入基本模型 text-bison 的 QPM 配额。这同样适用于调优后的模型,因此对 chat-bison@002 的请求和基于 chat-bison@002 且名为 my-tuned-chat-model 的调优后模型会计为两个请求,计入基本模型 chat-bison

此配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。

如需在 Google Cloud 控制台中查看配额,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入 IAM 和管理配额页面。

    在控制台中查看配额

  2. 过滤条件字段中,指定维度或指标。

    • 维度:模型标识符。例如 base_model:gemini-1.0-probase_model:text-bison

    • 指标:配额标识符。

      • 对于 Gemini 模型:aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
      • 对于 PaLM 2 模型:aiplatform.googleapis.com/online_prediction_requests_per_base_model

选择一个区域以查看每个可用模型的配额限制:

批量配额

对于 Vertex AI 上的生成式 AI 批量预测作业,以下配额和限制在所有区域中都是相同的:

配额
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4
textembedding_gecko_concurrent_batch_prediction_jobs 4

自定义训练模型配额

以下配额适用于给定项目和区域的 Vertex AI 上的生成式 AI 调优模型

配额
每个区域的受限图片训练 TPU V3 pod 核心数
*受支持的区域 - europe-west4
64
每个区域的受限图片训练 Nvidia A100 80GB GPU
*受支持的区域 - us-central1
* 受支持的区域 - us-east4

8
2

* 在特定区域中,调优场景具有加速器预留。支持调优配额,并且必须在特定区域中申请。

在线评估配额

评估在线服务使用 text-bison 模型作为使用 Google IP 提示和机制的自动评估器,以确保对基于模型的指标进行一致和客观的评估。

对基于模型的指标的单个评估请求可能会导致对在线预测服务发出多个底层请求。每个模型的配额按项目计算,这意味着定向到 text-bison 进行模型推理和基于模型的评估的任何请求都会计入配额。不同模型配额的设置方式有所不同。下表显示了评估服务的配额和底层自动评估器模型的配额。

请求配额 默认配额
每分钟的在线评估服务请求数 每个区域中每个项目 1,000 个请求
base_model 每分钟的在线预测请求数,base_model:text-bison 每个区域中每个项目 1,600 个请求

如果您在使用评估在线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

限额
在线评估服务请求超时 60 秒

新项目中首次使用在线评估服务的用户可能会遇到初始设置延迟,通常最长可达两分钟。此过程是一次性的。如果第一个请求失败,请等待几分钟,然后重试。后续评估请求通常会在 60 秒内完成。

根据用作自动评估器的模型,基于模型的指标的输入和输出词元数上限具有相应限制。请参阅模型信息 | Vertex AI 上的生成式 AI | Google Cloud 了解相关模型的限制。

检索增强生成配额

检索增强生成 (RAG) 配额包括:

服务 配额
RAG 数据管理 API 每分钟 60 个请求 (RPM)
RetrievalContexts API 1,500 RPM
数据注入 1000 个文件

Gecko@003 文本嵌入 API 配额用于文档索引。请考虑增加配额以获得最佳索引性能。

流水线评估配额

如果您在使用评估流水线服务时收到与配额相关的错误,则可能需要提交配额增加请求。如需了解详情,请参阅查看和管理配额

评估流水线服务使用 Vertex AI Pipelines 来运行 PipelineJobs。查看 Vertex AI Pipelines 的相关配额。以下是一般配额建议:

服务 配额 建议
Vertex AI API 每个区域的并发 LLM 批量预测作业数 逐点:1 * num_concurrent_pipelines

成对:2 * num_concurrent_pipelines
Vertex AI API 每个区域每分钟的评估请求数 1000 * num_concurrent_pipelines

此外,在计算基于模型的评估指标时,自动评估器可能会遇到配额问题。相关配额取决于所使用的自动评估器:

任务 配额 基本模型 建议
summarization
question_answering
每个 base_model 每个区域每分钟每个基本模型的在线预测请求数 text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

每个调优作业都使用 Vertex AI Pipelines。如需了解详情,请参阅 Vertex AI Pipelines 配额和限制

增加配额

若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额

后续步骤