Live API 的已佈建處理量

本節說明「佈建輸送量」如何搭配 Live API 運作,以進行權杖計數和配額強制執行。

Live API 支援透過工作階段進行低延遲多模態互動。並使用工作階段記憶體保留及回想工作階段內互動的資訊。模型就能回想先前提供的或討論的資訊。佈建輸送量支援 Gemini 2.5 Flash with Live API 模型。如要進一步瞭解 Live API,包括工作階段限制和功能,請參閱 Live API 參考資料

計算 Live API 的處理量

使用 Live API 時,儲存在工作階段記憶體中的權杖可用於後續對模型提出的要求。因此,佈建輸送量會將傳入的權杖和同一要求中的工作階段記憶體權杖納入考量。這可能會導致每個要求處理的權杖數量,大於使用者在進行中的要求中傳送的權杖數量。

Live API 對可儲存在工作階段記憶體中的權杖總數設有限制,且中繼資料欄位會包含權杖總數。計算服務要求所需的輸送量時,您必須將工作階段記憶體中的權杖納入考量。如果您使用隨用隨付 (PayGo) 方案的 Live API,可以運用這些流量模式和工作階段權杖,估算佈建輸送量需求。

如何估算 Live API 的佈建輸送量需求

在工作階段期間,所有流量都會以「佈建輸送量」或「隨用隨付」方式處理。如果工作階段期間達到「佈建輸送量」配額,您會收到錯誤訊息,要求稍後再試。配額恢復後,您就可以繼續傳送要求。只要工作階段處於有效狀態,您就能存取工作階段狀態 (包括工作階段記憶體)。

這個範例說明如何處理兩個連續要求,包括來自工作階段記憶體的權杖。

要求#1 詳細資料

時間長度:10 秒

傳送的權杖 (音訊):10 秒 x 25 個權杖/秒 = 250 個權杖

傳送的權杖 (影片):10 秒 x 258 個權杖/每秒影格 = 2580 個權杖

要求#1 處理的權杖總數

  • 傳送的權杖:傳送的音訊和影片權杖總和 = 2580 + 250 = 2830 個權杖
  • 收到的權杖:100 個 (音訊)

要求#2 詳細資料

時間長度:40 秒

傳送的權杖 (音訊):40 秒 x 25 個權杖/秒 = 1000 個權杖

要求#2 處理的權杖總數

  • 傳送的權杖:要求#2 中傳送的權杖 + 要求#1 中的工作階段記憶體權杖 = 2830 個權杖 + 1000 個權杖 = 3830 個權杖
  • 收到的權杖:200 個 (音訊)

計算要求中處理的權杖數量

系統會計算這些要求處理的權杖數量,計算方式如下:

  • 要求 1 只會處理進行中要求的輸入和輸出權杖,因為工作階段記憶體中沒有其他權杖。

  • 要求 #2 會處理進行中要求中的輸入和輸出權杖,但也會納入來自工作階段記憶體的輸入權杖,包括來自工作階段記憶體中前一個要求 (要求 #1) 的輸入權杖。工作階段記憶體中的權杖消耗率與標準輸入權杖相同 (1 個輸入工作階段記憶體權杖 = 1 個輸入權杖)。

    如果要求 2 在您傳送後正好花費 1 秒處理,系統會處理權杖並套用至佈建輸送量配額,如下所示:

    • 將輸入內容乘以消耗率,即可取得輸入權杖總數:

      2830 x (每個工作階段記憶體權杖 1 個權杖) + 1000 x (每個輸入文字權杖 1 個權杖) = 3830 個查詢的消耗量調整後輸入權杖

    • 將輸出內容乘以消耗率,即可取得輸出權杖總數:

      200 x (每個音訊輸出權杖 6 個權杖) = 1,200 個權杖

    • 將這兩個總數相加,即可得出處理的權杖總數:

      3,830 個權杖 + 1,200 個權杖 = 5,030 個權杖

如果您的佈建輸送量配額大於每秒 5,030 個權杖,這項要求就能立即處理。如果代幣數量較少,系統會按照您設定的配額速率處理代幣。

後續步驟