如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429
。下表显示了每种类型的配额框架生成的错误消息:
配额框架 | 消息 |
---|---|
随用随付 | Resource exhausted, please try again later. |
预配的吞吐量 | Too many requests. Exceeded the Provisioned Throughput. |
使用预配的吞吐量订阅时,您可以为特定的生成式 AI 模型预留该吞吐量。如果您没有预配的吞吐量订阅,并且应用没有可用的资源,则系统会返回错误代码 429
。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求不会计入服务等级协议 (SLA) 中所述的错误率。
对于已购买预配吞吐量的项目,Vertex AI 会衡量项目的吞吐量,并预留所购买的吞吐量供项目实际使用。
对于标准预配吞吐量,如果您使用的吞吐量少于购买的吞吐量,则本可能以 429
返回的错误会以 5XX
返回,并计入 SLA 错误率。对于单可用区预配吞吐量,如果您使用的吞吐量少于购买的吞吐量,则与容量相关的 429
错误会被视为 5XX
,但不会计入 SLA 错误率。当您超出购买的金额时,额外的请求将按需处理,并按随用随付方式结算。
随用随付
在随用随付配额框架中,您可以通过以下方式来解决 429
错误:
- 请尽可能使用全球端点,而不是区域性端点。
- 使用截断指数退避算法实现重试策略。
- 如果您的模型使用配额,您可以提交配额增加申请 (QIR)。如果您的模型使用动态共享配额,则平滑流量并减少大幅波动有助于解决此问题。如需了解详情,请参阅动态共享配额 (DSQ)。
- 订阅预配的吞吐量,以实现更一致的服务等级。如需了解详情,请参阅预配吞吐量。
预配的吞吐量
如需更正预配的吞吐量产生的 429 错误,请执行以下操作:
- 使用默认行为示例,该示例不会在预测请求中设置标头。任何超额费用按需处理,并且随用随付。
- 增加预配的吞吐量订阅中的 GSU 数量。
后续步骤
- 如需详细了解动态共享配额,请参阅动态共享配额。
- 如需详细了解预配吞吐量,请参阅预配吞吐量。
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和系统限制,请参阅 Cloud 配额文档。
- 如需详细了解 API 错误,请参阅 API 错误。