如果要求數量超過分配到的要求處理容量,系統會傳回錯誤代碼 429
。下表顯示各配額架構產生的錯誤訊息:
配額架構 | 訊息 |
---|---|
即付即用 | Resource exhausted, please try again later. |
佈建輸送量 | Too many requests. Exceeded the Provisioned Throughput. |
訂閱「佈建的處理量」後,即可為特定生成式 AI 模型預留處理量。如果您沒有「佈建輸送量」訂閱方案,且應用程式無法使用資源,系統就會傳回錯誤碼 429
。雖然您沒有預留容量,但可以再次嘗試提出要求。不過,如服務水準協議 (SLA)所述,這類要求不會計入錯誤率。
對於已購買預先佈建輸送量的專案,Vertex AI 會測量專案的輸送量,並為專案的實際用量保留所購買的輸送量。
如果是標準佈建輸送量,當您使用的量少於購買量時,原本可能會是 429
的錯誤會以 5XX
形式傳回,並計入服務等級協議錯誤率。如果是單一可用區佈建輸送量,當您使用的量少於購買量時,容量相關的 429
錯誤會視為 5XX
,但不計入服務水準協議錯誤率。如果超出購買量,系統會以即付即用方式處理額外要求。
即付即用
在隨用隨付配額架構中,您可以採取下列做法解決 429
錯誤:
- 請盡可能使用全域端點,而非地區端點。
- 使用部分指數輪詢實作重試策略。
- 如果模型使用配額,您可以提交配額提高要求 (QIR)。如果模型使用動態共用配額,平緩流量並減少大幅尖峰流量有助於解決問題。詳情請參閱「動態共用配額 (DSQ)」。
- 訂閱已佈建的處理量,即可享有更穩定的服務水準。詳情請參閱佈建的輸送量。
佈建輸送量
如要修正 Provisioned Throughput 產生的 429 錯誤,請執行下列操作:
- 使用預設行為範例,這不會在預測要求中設定標頭。任何超出配額的用量都會以隨選方式處理,並以即付即用方式計費。
- 增加「佈建輸送量」訂閱方案的 GSU 數量。
後續步驟
- 如要進一步瞭解動態共用配額,請參閱「動態共用配額」。
- 如要進一步瞭解已佈建的處理量,請參閱這篇文章。
- 如要瞭解 Vertex AI 的配額和限制,請參閱「Vertex AI 配額和限制」。
- 如要進一步瞭解 Google Cloud 配額和系統限制,請參閱 Cloud Quotas 說明文件。
- 如要進一步瞭解 API 錯誤,請參閱「API 錯誤」。