本頁面由 Cloud Translation API 翻譯而成。

計算已佈建的處理量需求

本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率，計算並決定佈建處理量的價格。

GSU 和消耗率

生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。

消耗率是一種比率，可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量，用於產生各模型的標準單位。

不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量，請參閱本文的「支援的機型和消耗率」一節。

以下方程式說明輸送量計算方式：

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

計算出的每秒處理量會決定您需要多少 GSU，才能滿足應用情境的需求。

重要事項

為協助您規劃佈建輸送量需求，請詳閱下列重要考量事項：

要求會優先處理。

系統會優先處理佈建輸送量客戶的要求，再處理隨選要求。
輸送量不會累計。

未使用的輸送量不會累計，也無法轉移到下個月。
預先佈建的處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。

已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量，這項指標是根據您的用途、回應大小和 QPM 計算而得。
佈建輸送量專屬於特定專案、地區、模型和版本。

佈建輸送量會指派給特定專案/區域/模型/版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額，也不會優先於隨選要求。

脈絡快取

佈建輸送量支援隱含內容快取。不支援明確的內容快取。明確情境快取流量會從佈建輸送量移至隨用隨付。如要瞭解支援的模型和限制，請參閱「情境快取」。

根據預設，所有 Google Cloud 專案都會啟用隱含快取。隱含快取可減少快取命中期間的費用和延遲時間。快取命中時，系統會以相對於標準輸入權杖的折扣價格，收取快取權杖的費用。如要查看特定模型的折扣，請參閱「內容快取總覽」。對於佈建的處理量，系統會透過降低消耗率來套用折扣。

舉例來說，Gemini 2.5 Pro 的輸入文字權杖和快取權杖的消耗率如下：

1 個輸入文字權杖 = 1 個權杖
1 個輸入的快取文字權杖 = 0.1 個權杖

如果將 1,000 個輸入權杖傳送至這個模型，每秒的佈建處理量就會減少 1,000 個輸入權杖。不過，如果您將 1,000 個快取詞元傳送至 Gemini 2.5 Pro，每秒的佈建輸送量就會減少 100 個詞元。

請注意，如果權杖未快取，且未套用快取折扣，類似查詢的輸送量可能會提高。

如要查看佈建輸送量支援的模型的消耗率，請參閱「支援的模型和消耗率」。

瞭解 Live API 的淘汰程序

佈建輸送量支援 Gemini 2.5 Flash 和 Live API。如要瞭解如何在使用 Live API 時計算耗盡時間，請參閱「計算 Live API 的輸送量」。

如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量，請參閱「Live API 的預先佈建輸送量」。

預估佈建處理量需求的範例

如要估算佈建輸送量需求，請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。

下表提供 gemini-2.0-flash 的燃盡率，可用於追蹤範例。

型號	每 GSU 的總處理量	單位	最低 GSU 購買增量	燃盡率
Gemini 2.0 Flash	3,360	權杖	1	1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖

匯集相關規定。
1. 在這個範例中，您的需求是驗證是否能支援每秒 10 次查詢 (QPS)，每次查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖，並使用 gemini-2.0-flash 接收 300 個文字權杖的輸出內容。
  
  這個步驟表示您瞭解自己的用途，因為您已識別模型、QPS，以及輸入和輸出的大小。
2. 如要計算輸送量，請參閱所選模型的消耗率。
計算處理量。
1. 將輸入內容乘以消耗率，即可得出輸入的權杖總數：
  
  1,000&ast;(每項輸入文字詞元 1 個詞元) + 500&ast;(每項輸入音訊詞元 7 個詞元) = 每項查詢 4,500 個消耗調整後輸入詞元。
2. 將輸出內容乘以消耗率，即可得出輸出詞元總數：
  
  300&ast;(每個輸出文字權杖 4 個權杖) = 1,200 個每項查詢的輸出權杖 (經燒毀調整)
3. 將總數加總：
  
  4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖
4. 將權杖總數乘以 QPS，即可得出每秒總輸送量：
  
  每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖
計算 GSU。
1. GSU 是每秒總權杖數除以耗盡表中的每個 GSU 每秒輸送量。
  
  每秒總共 57,000 個權杖 ÷ 每個 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU
2. gemini-2.0-flash 的最低 GSU 購買增量為 1，因此您需要 17 個 GSU 才能確保工作負載。

後續步驟

購買佈建的處理量。