吞吐量配额

Vertex AI 提供两种管理生成式 AI 模型吞吐量的方法,让您能够兼顾成本、灵活性和性能。您可以选择灵活的随用随付模式,也可以选择以固定价格预留专用吞吐量。

随用随付

对于默认的随用随付模式,Vertex AI 使用动态共享配额,该配额没有预定义的用量限额。相反,您可以访问大型共享资源池,系统会根据实时可用性和需求动态分配资源。

此模型允许工作负载在资源可用时使用更多资源。如果您收到 resource exhausted (429) 错误,则表示共享资源池暂时同时面临许多用户的极高需求。您应在应用中实现重试机制,因为可用性可能会快速变化。

预留容量

对于需要稳定性能和可预测费用的关键生产应用,您可以使用预配吞吐量。预配的吞吐量是一项固定费用订阅,用于为所选位置的模型预留特定量的吞吐量。

后续步骤