使用已佈建的處理量

本頁說明預先佈建輸送量的運作方式、如何控管溢出或略過預先佈建輸送量,以及如何監控用量。

佈建輸送量的運作方式

本節說明「佈建輸送量」的運作方式,包括在配額強制執行期間檢查配額。

檢查佈建輸送量配額

佈建處理量配額上限是您購買的生成式 AI 擴充單元 (GSU) 數量,以及每個 GSU 的處理量倍數。系統會在配額強制執行週期內,每次您提出要求時進行檢查。配額強制執行週期是指系統強制執行最高佈建輸送量配額的頻率。

收到要求時,系統並不知道實際的回應大小。由於我們優先考量即時應用程式的回覆速度,因此佈建輸送量會估算輸出權杖大小。如果初始預估值超過可用的佈建傳輸量上限配額,系統會以即付即用模式處理要求。否則,系統會以佈建傳輸量模式處理要求。方法是比較初始預估值與佈建輸送量配額上限。

系統產生回應並得知實際輸出權杖大小後,會將預估值與實際用量之間的差額加到可用的預先佈建處理量配額金額,藉此核對實際用量和配額。

佈建輸送量配額強制執行期

對於 gemini-2.0-flash-litegemini-2.0-flash 模型,配額強制執行期最多可能需要 30 秒,且可能會變更。也就是說,在某些情況下,您可能會暫時遇到優先流量,每秒超過配額量,但每 30 秒不應超過配額。這些時間範圍是以 Vertex AI 內部時鐘時間為準,與提出要求的時間無關。

舉例來說,如果您購買 1 個 GSU 的 gemini-2.0-flash-001,則應預期每秒 3,360 個符記的持續輸送量。平均來說,每 30 秒不得超過 100,800 個權杖,計算公式如下:

3,360 tokens per second * 30 seconds = 100,800 tokens

舉例來說,假設您在一天內只提交一個要求,且該要求在一秒內耗用 8,000 個權杖,即使您在提出要求時超過每秒 3,360 個權杖的限制,系統仍可能會將該要求視為佈建輸送量要求。這是因為要求未超過每 30 秒 100,800 個權杖的門檻。

控管超額用量或略過佈建處理量

當您超過購買的處理量時,可以使用 API 控制超額用量,或以單一要求為單位略過佈建處理量。

請詳閱每個選項,判斷必須採取哪些行動才能滿足您的用途。

預設行為

如果超出購買的處理量,超出的部分會改為即付即用,並按即付即用費率計費。佈建輸送量訂單生效後,系統會自動執行預設行為。只要在佈建區域使用訂單,就不必變更程式碼。

僅使用佈建輸送量

如要避免隨選費用,請只使用佈建的總處理量。如果要求超出佈建輸送量訂單金額,系統會傳回錯誤 429

向 API 傳送要求時,請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 dedicated

僅使用即付即用方案

這也稱為使用隨選功能。要求會略過「佈建輸送量」訂單,直接以隨用隨付方式傳送。這可能適用於實驗或開發中的應用程式。

傳送 API 要求時,請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 shared

範例

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件

設定環境變數,透過 Vertex AI 使用 Gen AI SDK:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

監控佈建輸送量

您可以使用一組以 aiplatform.googleapis.com/PublisherModel 資源類型測量的指標,自行監控佈建輸送量用量。

佈建輸送量流量監控功能為公開預先發布版。

維度

您可以根據下列維度篩選指標:

尺寸
type input
output
request_type

dedicated:流量是使用佈建輸送量處理。

spillover:超過佈建輸送量配額後,系統會以隨用隨付配額處理流量。

shared:如果已啟用佈建輸送量,系統會使用共用的 HTTP 標頭,以隨用隨付配額處理流量。如果「佈建輸送量」未啟用,系統預設會以隨用隨付方式處理流量。

路徑前置字串

指標的路徑前置字元為 aiplatform.googleapis.com/publisher/online_serving

舉例來說,/consumed_throughput 指標的完整路徑為 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput

指標

您可以在 Gemini 模型的 aiplatform.googleapis.com/PublisherModel 資源中查看下列 Cloud Monitoring 指標。使用 dedicated 要求類型,篩選出佈建輸送量用量。

指標 顯示名稱 說明
/dedicated_gsu_limit 限制 (GSU) 專屬 GSU 限制。這項指標可協助您瞭解 GSU 的佈建輸送量配額上限。
/tokens 權杖 輸入和輸出權杖計數分布情形。
/token_count 符記數量 累積的輸入和輸出詞元數量。
/consumed_token_throughput 權杖處理量 總處理量用量,其中包含權杖的消耗率,以及配額對帳。請參閱「佈建的處理量配額檢查」。

使用這項指標瞭解佈建的處理量配額用量。
/dedicated_token_limit 上限 (每秒權杖數) 每秒詞元數的專屬限制。使用這項指標,瞭解以權杖為準模型的佈建輸送量配額上限。
/characters 角色 輸入和輸出字元數的分布情形。
/character_count 字元數 累積的輸入和輸出字元數。
/consumed_throughput 字元處理量 總處理量用量,其中會考量字元消耗率,並納入配額對帳 佈建總處理量配額檢查

使用這項指標,瞭解已佈建的處理量配額使用情形。

如果是以權杖為準的模型,這項指標等同於以權杖為單位計算的耗用量乘以 4。
/dedicated_character_limit 上限 (每秒字元數) 每秒字元數的專屬上限。使用這項指標,瞭解字元型模型的佈建輸送量配額上限。
/model_invocation_count 模型叫用次數 模型叫用次數 (預測要求)。
/model_invocation_latencies 模型叫用延遲 模型叫用延遲時間 (預測延遲時間)。
/first_token_latencies 第一個權杖的延遲時間 從收到要求到傳回第一個權杖的時間長度。

Anthropic 模型也有佈建處理量的篩選器,但僅適用於 tokens/token_count

資訊主頁

佈建輸送量的預設監控資訊主頁提供指標,可協助您進一步瞭解用量和佈建輸送量使用情形。如要存取資訊主頁,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Provisioned Throughput」(佈建輸送量) 頁面。

    前往「已佈建處理量」

  2. 如要查看所有訂單中個別模型的佈建輸送量使用情形,請選取「使用情形摘要」分頁。

    在「各模型的佈建輸送量使用情形」表格中,您可以查看所選時間範圍的下列資訊:

    • 您擁有的 GSU 總數。

    • 以 GSU 為單位的尖峰處理量用量。

    • 平均 GSU 使用率。

    • 達到佈建輸送量上限的次數。

  3. 從「Provisioned Throughput utilization by model」(模型佈建處理量使用率) 表格中選取模型,即可查看所選模型的更多指標。

資訊主頁的限制

如果流量波動劇烈,或流量稀少 (例如每秒查詢次數少於 1 次),資訊主頁可能會顯示非預期的結果。可能導致這些結果的原因如下:

  • 如果時間範圍超過 12 小時,配額強制執行期間的代表性可能會較低。輸送量指標及其衍生指標 (例如使用率) 會顯示所選時間範圍內,對齊週期的平均值。時間範圍擴大時,每個對齊週期也會擴大。對齊週期會擴大,涵蓋平均用量的計算。由於系統會以分鐘為單位計算配額用量,因此將時間範圍設為 12 小時以內,可取得與實際配額用量期間更具可比性的分鐘級資料。如要進一步瞭解對齊週期,請參閱對齊:系列內正規化。如要進一步瞭解時間範圍,請參閱「正規化時間間隔」。
  • 如果同時提交多個要求,監控匯總作業可能會影響您篩選特定要求的能力。
  • 如果提出要求時,處理量已超過配額,系統會節流處理流量,但會在配額結算後回報用量指標。
  • 「佈建處理量」配額的強制執行週期與監控匯總週期或要求/回應週期無關,且可能不一致。
  • 如果未發生任何錯誤,錯誤率圖表可能會顯示錯誤訊息。例如「要求資料時發生錯誤。找不到一或多項資源。

監控 Genmedia 模型

Veo 3 和 Imagen 模型的指標會以符記表示輸送量,如下所示:

  • Veo 模型:1 個權杖 = 1 秒影片

  • Imagen 模型:1 個權杖 = 1 張圖片

舉例來說,如果您要監控 Veo 3 模型的佈建輸送量用量,/consumed_token_throughput 指標代表影片秒數輸送量,/dedicated_token_limit 則代表每秒的專屬影片秒數限制。

快訊

啟用快訊功能後,請設定預設快訊,協助您管理流量用量。

啟用警告

如要在資訊主頁中啟用快訊,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Provisioned Throughput」(佈建輸送量) 頁面。

    前往「已佈建處理量」

  2. 如要查看所有訂單中個別模型的佈建輸送量使用情形,請選取「使用情形摘要」分頁。

  3. 選取「建議的快訊」,系統會顯示下列快訊:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. 查看有助於管理流量的快訊。

查看更多快訊詳細資料

如要查看快訊的詳細資訊,請按照下列步驟操作:

  1. 前往「整合」頁面。

    前往「整合」頁面

  2. 在「Filter」欄位中輸入 vertex,然後按 Enter。系統會顯示「Google Vertex AI」

  3. 如要查看更多資訊,請按一下「查看詳細資料」。系統會顯示「Google Vertex AI 詳細資料」窗格。

  4. 選取「快訊」分頁標籤,然後選取「快訊政策」範本。

後續步驟