計算已佈建的處理量需求

本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率,計算並決定佈建處理量的價格。

GSU 和消耗率

生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。

消耗率是一種比率,可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量,用於產生各模型的標準單位。

不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量,請參閱本文的「支援的機型和消耗率」一節。

以下方程式說明輸送量計算方式:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

每秒計算的處理量會決定您需要多少 GSU,才能滿足應用情境需求。

重要事項

為協助您規劃佈建輸送量需求,請詳閱下列重要考量事項:

  • 要求會依優先順序處理。

    系統會優先處理佈建輸送量客戶的要求,再處理隨選要求。

  • 輸送量不會累計。

    未使用的輸送量不會累計,也無法轉移到下個月。

  • 預估處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。

    已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量,這項指標是根據應用情況的查詢大小、回應大小和 QPM 計算而得。

  • 佈建輸送量專屬於特定專案、地區、模型和版本。

    佈建輸送量會指派給特定專案/區域/模型/版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額,也不會優先於隨選要求。

脈絡快取

佈建輸送量支援預設的內容快取。不過,透過 Vertex AI API 佈建的輸送量不支援快取要求,包括擷取內容快取相關資訊。

根據預設,Google 會自動快取輸入內容,以降低成本和延遲時間。如果使用 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型,發生快取命中時,系統會以標準輸入權杖的 75% 折扣計費。對於佈建的總處理量,系統會透過降低消耗率來套用折扣。

舉例來說,Gemini 2.5 Pro 的輸入文字權杖和快取權杖消耗率如下:

  • 1 個輸入文字權杖 = 1 個權杖

  • 1 個輸入快取文字權杖 = 0.25 個權杖

如果傳送 1,000 個輸入權杖給這個模型,每秒的佈建處理量就會減少 1,000 個輸入權杖。不過,如果您傳送 1,000 個快取權杖給 Gemini 2.5 Pro,每秒的權杖數會減少 250 個。

請注意,如果權杖未快取,且未套用快取折扣,類似查詢的輸送量可能會因此提高。

如要查看佈建輸送量支援的模型的消耗率,請參閱「支援的模型和消耗率」。

瞭解 Live API 的淘汰程序

透過 Live API,佈建輸送量支援 Gemini 2.5 Flash。如要瞭解如何在使用 Live API 時計算耗盡時間,請參閱「計算 Live API 的輸送量」。

如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量,請參閱「Live API 的預先佈建輸送量」。

預估已佈建處理量需求的範例

如要估算佈建輸送量需求,請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。

下表提供 gemini-2.0-flash 的燃盡率,可用於追蹤範例。

型號 每 GSU 的總處理量 單位 最低 GSU 購買增量 燃盡率
Gemini 2.0 Flash 3,360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖
  1. 匯集相關規定。

    1. 在這個範例中,您的需求是驗證您是否能支援每秒 10 次查詢 (QPS),查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖,並使用 gemini-2.0-flash 接收 300 個文字權杖的輸出內容。

      這個步驟表示您瞭解自己的用途,因為您已識別模型、QPS,以及輸入和輸出內容的大小。

    2. 如要計算輸送量,請參閱所選模型的消耗率

  2. 計算處理量。

    1. 將輸入內容乘以消耗率,即可得出輸入權杖總數:

      1,000*(每項輸入文字詞元 1 個詞元) + 500*(每項輸入音訊詞元 7 個詞元) = 4,500 個每項查詢的消耗調整後輸入詞元。

    2. 將輸出內容乘以消耗率,即可得出輸出權杖總數:

      300*(每個輸出文字權杖 4 個權杖) = 1,200 個每項查詢的輸出權杖 (經調整後)

    3. 將總數加總:

      4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖

    4. 將權杖總數乘以 QPS,即可得出每秒總輸送量:

      每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖

  3. 計算 GSU。

    1. GSU 是每秒總權杖數除以每秒每個 GSU 的處理量 (來自耗用表)。

      每秒總共 57,000 個權杖 ÷ 每 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU

    2. gemini-2.0-flash 的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。

後續步驟