支援的模型

下表列出支援預先佈建處理量的模型、每個生成式 AI 擴充單元 (GSU) 的處理量,以及每個模型的消耗率

Google 模型

佈建輸送量僅支援您使用特定模型 ID (而非模型別名) 從專案直接呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名

此外,透過佈建的輸送量不支援由其他 Vertex AI 產品 (例如 Vertex AI Agents 和 Vertex AI Search) 呼叫的模型。舉例來說,如果您在使用 Vertex AI Search 時對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單無法保證 Vertex AI Search 進行的呼叫。

佈建輸送量不支援批次預測呼叫。

下表列出支援佈建處理量的 Google 模型,以及這些模型的處理量、購買增量和消耗率。每秒處理量是指每秒所有要求中的提示輸入和生成輸出內容。

如要瞭解工作負載所需的權杖數量,請參閱 SDK 分詞器countTokens API

型號 每 GSU 的每秒總處理量 單位 最低 GSU 購買增量 燃盡率

Gemini 2.5 Flash-Lite

最新支援版本:gemini-2.5-flash-lite

8070 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 3 個權杖
1 個輸出回應文字權杖 = 4 個權杖
1 個輸出推理文字權杖 = 4 個權杖

Gemini 2.5 Pro

最新支援版本:gemini-2.5-pro

650 權杖 1 輸入權杖數少於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出回應文字權杖 = 8 個權杖
1 個輸出推理文字權杖 = 8 個權杖

輸入權杖數超過 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸出回應文字權杖 = 12 個權杖
1 個輸出推理文字權杖 = 12 個權杖

Gemini 2.5 Flash

最新支援版本:gemini-2.5-flash

2690 權杖 1 1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 4 個符記
1 個輸出回應文字符記 = 9 個符記
1 個輸出推理文字符記 = 9 個符記

Gemini 2.0 Flash

最新支援版本:gemini-2.0-flash-001

3360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖

Gemini 2.0 Flash-Lite

最新支援版本:gemini-2.0-flash-lite-001

6720 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Veo 3

最新支援版本:veo-3.0-generate-001

0.0016
  • 影片秒數
  • 視訊和音訊秒數
1 1 秒輸出影片 = 1 秒輸出影片
1 秒輸出影片 + 音訊 = 1.5 秒輸出影片

Veo 3 Fast

最新支援版本:veo-3.0-fast-generate-001

0.0032
  • 影片秒數
  • 視訊和音訊秒數
1 1 秒輸出影片 = 1 秒輸出影片
1 秒輸出影片 + 音訊 = 1.6 秒輸出影片
Imagen 3 0.025 圖片 1 只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Fast 0.05 圖片 1 只有輸出圖片會計入佈建輸送量配額。
Imagen 2 0.05 圖片 1 只有輸出圖片會計入佈建輸送量配額。
Imagen 2 編輯 0.05 圖片 1 只有輸出圖片會計入佈建輸送量配額。
MedLM 中型 2,000 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 2 個字元
MedLM Large 200 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 3 個字元
MedLM Large 1.5 200 字元 1 1 個輸入字元 = 1 個字元
1 個輸出字元 = 3 個字元

新模型推出後,您隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」。

如要進一步瞭解支援的地點,請參閱「可用的地點」。

支援全球端點模型

佈建輸送量支援下列模型的全球端點

型號 最新支援的模型版本
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

如果流量超出佈建處理量配額,系統預設會使用全域端點。

如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global 做為區域。

支援經過監督式微調的模型

如果 Google 模型支援監督式微調,則支援下列項目:

  • 佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。

  • 監督式微調模型端點及其對應的基礎模型會計入相同的佈建輸送量配額。

    舉例來說,如果為特定專案的 gemini-2.0-flash-lite-001 購買佈建輸送量,系統會優先處理從該專案中建立的 gemini-2.0-flash-lite-001 監督式微調版本提出的要求。使用適當的標頭來控管流量行為。

合作夥伴模型

下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計費單位為每秒權杖數,也就是每秒所有要求中輸入和輸出權杖的總數。

型號 每 GSU 的輸送量 (權杖/秒) 最低 GSU 購買量 GSU 購買增量 燃盡率
Anthropic 的 Claude Opus 4.1 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Opus 4 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.7 Sonnet 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet v2 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Haiku 2,000 10 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Opus 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic Claude 3 Haiku 4,200 5 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖

如要瞭解支援的地區,請參閱「Anthropic Claude 區域可用性」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。

後續步驟