动态共享配额 (DSQ)

我们推出了动态共享配额 (DSQ)，以便更灵活地处理您的随用随付 (PayGo) 请求，从而适应您的工作负载需求，而无需管理配额和配额增加请求 (QIR)。使用 DSQ 时，您的用量没有预定义的配额限制。相反，DSQ 提供对大型共享资源池的访问权限，并根据资源的实时可用性和相应模型的所有客户的实时需求动态分配资源。当活跃客户较多时，每个客户获得的吞吐量就会减少。同样，如果客户数量较少，每个客户可能会获得更高的吞吐量。

支持的模型

以下 Gemini 模型及其监督式微调模型支持 DSQ：

以下旧版 Gemini 模型支持 DSQ：

Gemini 1.5 Pro
Gemini 1.5 Flash

以下 Imagen 模型支持 DSQ：

Imagen 4
Imagen 4 Fast
Imagen 4 Ultra

DSQ 的运作方式

动态共享配额 (DSQ) 会根据您的流量模式和需求进行调整，从而最大限度地减少使用摩擦。您的项目对 DSQ 下资源的访问权限不受我们设置的任意数量限制。而是由共享池的总容量和所有客户的当前集体需求决定。此模型旨在提供极大的灵活性，允许工作负载在资源可用时突增并消耗更多资源。反之，它还允许共享池的所有客户在资源可用时有机会访问资源，而无需为每个客户配置配额。

为了确保共享资源环境中的所有用户都能获得公平稳定的体验，动态共享配额会智能管理请求的处理方式，尤其是在隔离来源的需求非常高的时期。DSQ 采用动态优先级确定方法，而不是固定上限。这意味着，虽然系统旨在应对突发流量，但来自单个来源的异常大且快速的流量峰值可能会以不同于更稳定、持续的流量的优先级进行处理。这种精细的管理可确保广泛的用户活动和常规工作负载免受短暂的极端峰值的影响，从而提高整体系统稳定性和公平访问性。

包含多模态输入的 Gemini 请求受相应系统速率限制的约束，这些限制包括图片、音频、视频和文档。

如需确保应用具有高可用性并为生产工作负载提供可预测的服务等级，请参阅预配吞吐量。

了解 DSQ 下的资源耗尽 429 错误

我们理解，遇到“资源已用尽”429 错误可能会令人沮丧，并可能导致您怀疑自己达到了某种配额限制。不过，使用 DSQ 时，情况并非如此。这些错误表示，在特定时间，特定类型（例如特定区域中的特定模型）的总体共享资源池正同时面临许多用户的极高需求。这就像在高峰时段尝试乘坐非常热门的火车一样。我们没有专门针对您设置“车票限额”，但列车本身可能暂时满员。这是资源争用的暂时状态，而不是对项目施加的固定限制。

DSQ 会不断努力，公平高效地管理和分配可用容量。当您收到此类错误时，表示瞬时需求已超过相应共享池中的可用供应量。与硬性配额不同，即使其他地方的资源处于闲置状态，硬性配额也会阻止您使用资源；而 DSQ 旨在让您在资源空闲时随时可以使用。资源耗尽错误反映的是整个系统的当前负载，而不是您账号的上限。

我们建议您实现重试机制，因为这种动态环境中的可用性可能会快速变化。如需了解有关处理资源耗尽错误的更多策略，请参阅处理 429 错误的指南或错误代码 429。

后续步骤

如需了解 Vertex AI 的配额和限制，请参阅 Vertex AI 配额和限制。
如需详细了解 Google Cloud 配额和系统限制，请参阅 Cloud 配额文档。