本頁面由 Cloud Translation API 翻譯而成。

使用已佈建的處理量

本頁說明預先佈建輸送量的運作方式、如何控管溢出或略過預先佈建輸送量，以及如何監控用量。

佈建輸送量的運作方式

本節說明「佈建輸送量」的運作方式，包括在配額強制執行期間檢查配額。

檢查佈建輸送量配額

佈建處理量配額上限是您購買的生成式 AI 擴充單元 (GSU) 數量，以及每個 GSU 的處理量倍數。系統會在配額強制執行週期內，每次您提出要求時進行檢查。配額強制執行週期是指強制執行最高佈建輸送量配額的頻率。

收到要求時，系統並不知道實際的回應大小。由於我們優先考量即時應用程式的回覆速度，因此佈建輸送量會估算輸出權杖大小。如果初始預估值超過可用的佈建傳輸量上限配額，系統會以即付即用模式處理要求。否則，系統會以佈建傳輸量模式處理要求。方法是比較初始預估值與佈建輸送量配額上限。

系統產生回應並得知實際輸出權杖大小後，會將預估值與實際用量的差額加到可用的已佈建處理量配額金額，藉此核對實際用量和配額。

佈建輸送量配額強制執行期

對於 Gemini 模型，配額強制執行期最多可能需要 30 秒，且可能會變更。也就是說，在某些情況下，您可能會暫時遇到優先流量，每秒超過配額量，但每 30 秒不應超過配額。這些時間範圍是以 Vertex AI 內部時鐘時間為準，與提出要求的時間無關。

舉例來說，如果您購買 1 個 GSU 的 gemini-2.0-flash-001，則應預期每秒 3,360 個符記的持續輸送量。平均來說，每 30 秒的權杖數不得超過 100,800 個，計算公式如下：

3,360 tokens per second * 30 seconds = 100,800 tokens

舉例來說，假設您在一天內只提交一個要求，且該要求在一秒內耗用 8,000 個權杖，即使您在提出要求時超過每秒 3,360 個權杖的限制，系統仍可能會將該要求視為佈建輸送量要求。這是因為要求未超過每 30 秒 100,800 個權杖的門檻。

控管超額用量或略過佈建處理量

使用 API 控制超出購買處理量的用量，或以要求為單位略過佈建處理量。

請詳閱每個選項，判斷必須採取哪些行動才能符合您的用途。

預設行為

如果超出購買的處理量，超出的部分會改為即付即用，並按即付即用費率計費。佈建輸送量訂單生效後，系統會自動執行預設行為。只要在佈建區域使用訂單，就不必變更程式碼。

僅使用佈建輸送量

如要避免支付隨選費用來控管成本，請只使用佈建輸送量。如果要求超出佈建輸送量訂單金額，系統會傳回錯誤 429。

向 API 傳送要求時，請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 dedicated。

僅使用即付即用

這也稱為使用隨選功能。要求會略過「佈建輸送量」訂單，直接以隨用隨付方式傳送。這可能適用於實驗或開發中的應用程式。

傳送 API 要求時，請將 X-Vertex-AI-LLM-Request-Type HTTP 標頭設為 shared。

範例

Python

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

瞭解如何安裝或更新 Go。

詳情請參閱 SDK 參考說明文件。

設定環境變數，透過 Vertex AI 使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

設定環境後，即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

監控佈建輸送量

您可以使用一組以 aiplatform.googleapis.com/PublisherModel 資源類型測量的指標，自行監控佈建輸送量用量。

佈建輸送量流量監控功能為公開預先發布版。

維度

您可以根據下列維度篩選指標：

尺寸值

type input
output

尺寸	值
`type`	`input` `output`
`request_type`	`dedicated`：流量是使用佈建輸送量處理。 `spillover`：超過佈建輸送量配額後，系統會以隨用隨付配額處理流量。 `shared`：如果已啟用佈建輸送量，系統會使用共用的 HTTP 標頭，以隨用隨付配額處理流量。如果「佈建輸送量」未啟用，系統預設會以隨用隨付方式處理流量。

request_type

dedicated：流量是使用佈建輸送量處理。

spillover：超過佈建輸送量配額後，系統會以隨用隨付配額處理流量。

shared：如果已啟用佈建輸送量，系統會使用共用的 HTTP 標頭，以隨用隨付配額處理流量。如果「佈建輸送量」未啟用，系統預設會以隨用隨付方式處理流量。

路徑前置字串

指標的路徑前置字元為 aiplatform.googleapis.com/publisher/online_serving。

舉例來說，/consumed_throughput 指標的完整路徑為 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput。

指標

您可以在 Gemini 模型的 aiplatform.googleapis.com/PublisherModel 資源中查看下列 Cloud Monitoring 指標。使用 dedicated 要求類型，篩選出佈建輸送量用量。

指標	顯示名稱	說明
`/dedicated_gsu_limit`	限制 (GSU)	專屬 GSU 限制。這項指標可協助您瞭解 GSU 的佈建輸送量配額上限。
`/tokens`	權杖	輸入和輸出詞元數量分布情形。
`/token_count`	符記數量	累積的輸入和輸出詞元數量。
`/consumed_token_throughput`	符記處理量	總處理量用量，其中包含權杖的消耗率，以及配額對帳。請參閱「佈建的處理量配額檢查」。使用這項指標瞭解佈建的處理量配額用量。
`/dedicated_token_limit`	上限 (每秒權杖數)	每秒詞元數的專屬限制。使用這項指標，瞭解以權杖為準模型的佈建輸送量配額上限。
`/characters`	字元	輸入和輸出字元數的分布情形。
`/character_count`	字元數	累積的輸入和輸出字元數。
`/consumed_throughput`	字元處理量	總處理量用量，其中會考量字元消耗率，並納入配額對帳佈建總處理量配額檢查。使用這項指標，瞭解已佈建處理量配額的使用情況。如果是以權杖為準的模型，這項指標等同於以權杖為單位計算的耗用量乘以 4。
`/dedicated_character_limit`	上限 (每秒字元數)	每秒字元數的專屬限制。使用這項指標，瞭解字元型模型的佈建輸送量配額上限。
`/model_invocation_count`	模型叫用次數	模型調用次數 (預測要求)。
`/model_invocation_latencies`	模型叫用延遲	模型叫用延遲時間 (預測延遲時間)。
`/first_token_latencies`	第一個權杖的延遲時間	從收到要求到傳回第一個權杖的時間長度。

Anthropic 模型也有佈建處理量的篩選器，但僅適用於 tokens/token_count。

資訊主頁

佈建輸送量的預設監控資訊主頁提供指標，可協助您進一步瞭解用量和佈建輸送量使用情形。如要存取資訊主頁，請按照下列步驟操作：

前往 Google Cloud 控制台的「佈建輸送量」頁面。
前往「已佈建處理量」
如要查看所有訂單中個別模型的佈建輸送量使用情形，請選取「使用情形摘要」分頁。

在「各模型的佈建輸送量使用情形」表格中，您可以查看所選時間範圍的下列資訊：
- 您擁有的 GSU 總數。
- 以 GSU 為單位的尖峰處理量用量。
- 平均 GSU 使用率。
- 達到佈建輸送量上限的次數。
從「Provisioned Throughput utilization by model」(模型佈建處理量使用率) 表格中選取模型，即可查看所選模型的更多指標。

資訊主頁的限制

如果流量波動劇烈，或流量稀少 (例如每秒查詢次數少於 1 次)，資訊主頁可能會顯示非預期的結果。可能導致這些結果的原因如下：

如果時間範圍超過 12 小時，配額強制執行期間的代表性可能較低。輸送量指標及其衍生指標 (例如使用率) 會顯示所選時間範圍內，各對齊週期的平均值。時間範圍擴大時，每個對齊週期也會擴大。對齊週期會擴大，涵蓋平均用量的計算。由於系統會以分鐘為單位計算配額用量，因此將時間範圍設為 12 小時以內，可取得與實際配額用量期間更具可比性的分鐘級資料。如要進一步瞭解對齊週期，請參閱對齊：系列內正規化。如要進一步瞭解時間範圍，請參閱「正規化時間間隔」。
如果同時提交多個要求，監控匯總作業可能會影響您篩選特定要求的能力。
如果提出要求時，佈建的處理量已達上限，系統會節流處理流量，但會在配額調整後回報用量指標。
「佈建處理量」配額的強制執行週期與監控匯總週期或要求/回應週期無關，且可能不一致。
如果沒有發生錯誤，錯誤率圖表可能會顯示錯誤訊息。例如「要求資料時發生錯誤。找不到一或多項資源。

監控 Genmedia 模型

Veo 3 和 Imagen 模型不支援佈建輸送量監控功能。

快訊

啟用快訊功能後，請設定預設快訊，協助您管理流量用量。

啟用警告

如要在資訊主頁中啟用快訊，請按照下列步驟操作：

前往 Google Cloud 控制台的「佈建輸送量」頁面。
前往「已佈建處理量」
如要查看所有訂單中個別模型的佈建輸送量使用情形，請選取「使用情形摘要」分頁。
選取「建議的快訊」，系統會顯示下列快訊：
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
查看有助於管理流量的快訊。

查看更多快訊詳細資料

如要查看快訊的詳細資訊，請按照下列步驟操作：

前往「整合」頁面。
前往「整合」頁面
在「Filter」欄位中輸入 vertex，然後按 Enter 鍵。系統會顯示「Google Vertex AI」。
如要查看更多資訊，請按一下「查看詳細資料」。系統會顯示「Google Vertex AI 詳細資料」窗格。
選取「快訊」分頁標籤，然後選取「快訊政策」範本。

後續步驟

排解錯誤代碼 429。