Vertex AI 上的生成式 AI 的配额和系统限制

本页介绍了使用生成式 AI 服务的两种方式,提供了按地区和模型划分的配额列表,并介绍了如何在 Google Cloud 控制台中查看和修改配额。

概览

您可以通过以下两种方式使用生成式 AI 服务。您可以选择随用随付 (PayGo),也可以使用预配的吞吐量提前付费。

如果您使用的是按需付费方案,则在使用生成式 AI 功能时,需要遵守以下任一配额系统,具体取决于您使用的模型:

  • 早于 Gemini 2.0 的模型针对每个生成式 AI 模型使用标准配额系统,以帮助确保公平性并减少资源使用和可用性的激增。配额适用于给定 Google Cloud 项目和受支持区域的 Vertex AI 上的生成式 AI 请求。
  • 较新的模型使用动态共享配额 (DSQ),该功能会针对特定模型和地区,在所有客户之间动态分配可用的按需付费容量,从而无需设置配额和提交配额增加请求。DSQ 没有配额

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级,请参阅预配吞吐量

按模型的配额系统

型号 配额
Gemini 2.0 Flash-Lite (gemini-2.0-flash-lite-001) 请参阅动态共享配额 (DSQ)
Gemini 2.0 Flash (gemini-2.0-flash-001) 请参阅动态共享配额 (DSQ)
非 Gemini 模型和早期 Gemini 模型 请参阅标准配额系统 Vertex AI 配额和限制

在 Google Cloud 控制台中查看和修改配额

如需在 Google Cloud 控制台中查看和修改配额,请执行以下操作:
  1. 前往配额和系统限制页面。
  2. 前往“配额和系统限制”页面

  3. 如需调整配额,请复制并粘贴属性 aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model过滤条件中。按 Enter 键。
  4. 点击行末的三点状图标,然后选择修改配额
  5. 在该窗格中输入新的配额值,然后点击提交请求

后续步骤