計算已佈建的處理量需求

本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率,計算並決定佈建處理量的價格。

GSU 和消耗率

生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。

消耗率是一種比率,可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量,用於產生各模型的標準單位。

不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量,請參閱本文的「支援的機型和消耗率」一節。

以下方程式說明輸送量計算方式:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

每秒計算的處理量會決定您需要多少 GSU,才能滿足應用情境需求。

重要事項

為協助您規劃佈建輸送量需求,請詳閱下列重要考量事項:

  • 要求會優先處理。

    系統會優先處理佈建輸送量客戶的要求,再處理隨選要求。

  • 輸送量不會累計。

    未使用的輸送量不會累計,也無法轉移到下個月。

  • 預估處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。

    已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量,這項指標是根據應用情況的查詢大小、回應大小和 QPM 計算而得。

  • 佈建輸送量專屬於特定專案、地區、模型和版本。

    佈建輸送量會指派給特定專案/區域/模型/版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額,也不會優先於隨選要求。

脈絡快取

佈建輸送量支援隱含內容快取。不支援明確的內容快取。明確背景資訊快取流量會從佈建的處理量移至隨用隨付。

根據預設,所有 Google Cloud 專案都會啟用隱含快取。隱含快取可減少快取命中期間的費用和延遲時間。發生快取命中時,系統會以標準輸入權杖 25% 的價格計費。對於佈建的總處理量,系統會透過降低消耗率來套用折扣。

舉例來說,Gemini 2.5 Pro 的輸入文字權杖和快取權杖的消耗率如下:

  • 1 個輸入文字權杖 = 1 個權杖

  • 1 個輸入快取文字權杖 = 0.25 個權杖

如果傳送 1,000 個輸入權杖給這個模型,每秒的佈建處理量就會減少 1,000 個輸入權杖。不過,如果您傳送 1,000 個快取權杖至 Gemini 2.5 Pro,每秒的佈建輸送量就會減少 250 個權杖。

請注意,如果權杖未快取,且未套用快取折扣,類似查詢的輸送量可能會因此提高。

如要查看佈建輸送量支援的模型的消耗率,請參閱「支援的模型和消耗率」。

瞭解 Live API 的淘汰程序

透過 Live API,佈建輸送量支援 Gemini 2.5 Flash。如要瞭解如何在使用 Live API 時計算耗盡時間,請參閱「計算 Live API 的輸送量」。

如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量,請參閱「Live API 的預先佈建輸送量」。

預估佈建處理量需求的範例

如要估算佈建輸送量需求,請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。

下表提供 gemini-2.0-flash 的燃盡率,可用於追蹤範例。

型號 每 GSU 的總處理量 單位 最低 GSU 購買增量 燃盡率
Gemini 2.0 Flash 3,360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖
  1. 匯集相關規定。

    1. 在這個範例中,您的需求是驗證是否能支援每秒 10 次查詢 (QPS),每次查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖,並使用 gemini-2.0-flash 接收 300 個文字權杖的輸出內容。

      這個步驟表示您瞭解自己的用途,因為您已識別模型、QPS,以及輸入和輸出的大小。

    2. 如要計算輸送量,請參閱所選模型的消耗率

  2. 計算處理量。

    1. 將輸入內容乘以消耗率,即可得出輸入權杖總數:

      1,000*(每項輸入文字詞元 1 個詞元) + 500*(每項輸入音訊詞元 7 個詞元) = 每項查詢 4,500 個消耗調整後輸入詞元。

    2. 將輸出內容乘以消耗率,即可得出輸出權杖總數:

      300*(每個輸出文字權杖 4 個權杖) = 1,200 個每項查詢的輸出權杖 (經燒毀調整)

    3. 將總數加總:

      4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖

    4. 將權杖總數乘以 QPS,即可得出每秒總輸送量:

      每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖

  3. 計算 GSU。

    1. GSU 是每秒總權杖數除以每秒每個 GSU 的處理量 (來自耗用表)。

      每秒總共 57,000 個權杖 ÷ 每 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU

    2. gemini-2.0-flash 的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。

後續步驟