處理量配額

Vertex AI 提供兩種管理生成式 AI 模型輸送量的方式,可協助您在成本、彈性和效能之間取得平衡。您可以選擇彈性的即付即用模式,也可以預留固定量的輸送量,並支付固定價格。

即付即用

在預設的隨用隨付模式中,Vertex AI 會使用動態共用配額,而是根據即時可用性和需求,動態分配大型共用資源集區的資源。

這個模型可讓工作負載在資源可用時使用更多資源。 如果收到 resource exhausted (429) 錯誤,表示共用集區暫時有許多使用者同時提出要求,您應在應用程式中實作重試機制,因為可用性可能會快速變更。

預留容量

對於需要穩定效能和可預測費用的重要生產應用程式,您可以使用佈建輸送量。「佈建的處理量」是固定費用的訂閱服務,可為所選地區的模型預留特定處理量。

後續步驟