本頁面由 Cloud Translation API 翻譯而成。

Vertex AI 生成式 AI 配額和系統限制

本頁面介紹兩種使用生成式 AI 服務的方式，並提供各區域和模型的配額清單，以及說明如何在 Google Cloud 控制台中查看及編輯配額。

總覽

使用生成式 AI 服務的方式有兩種。您可以選擇隨用隨付 (PayGo)，也可以使用佈建輸送量預先付款。

如果您使用 PayGo，生成式 AI 功能的使用量會受到下列其中一種配額系統限制，具體視您使用的模型而定：

Gemini 2.0 之前的模型會為每個生成式 AI 模型使用標準配額系統，確保公平性，並減少資源用量和可用性的大幅波動。特定 Google Cloud 專案和支援區域的 Vertex AI 生成式 AI 要求適用配額規定。
較新的模型使用動態共用配額 (DSQ)，可動態分配特定模型和區域的所有客戶可用的隨用即付容量，因此不需要設定配額和提交配額增加要求。DSQ 沒有配額。

如要確保應用程式的高可用性，並為正式版工作負載取得可預測的服務等級，請參閱「佈建輸送量」。

依模型劃分的配額系統

下列模型支援動態共用配額 (DSQ)：

Gemini 2.5 Flash (預先發布版)
Gemini 2.5 Flash-Lite (預先發布版)
Gemini 2.5 Flash Image
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash with Live API (Preview)
Gemini 2.0 Flash (可生成圖片) (預先發布版)
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

下列舊版 Gemini 模型支援 DSQ：

Gemini 1.5 Pro
Gemini 1.5 Flash

非 Gemini 和舊版 Gemini 模型使用標準配額系統。詳情請參閱 Vertex AI 配額與限制。

MaaS 第三方模型使用標準配額，詳情請參閱各模型的參考頁面：使用合作夥伴模型。

調整後模型配額

調整後模型的推論作業與基礎模型共用配額。微調模型推論沒有獨立配額。

文字嵌入限制

每個要求最多可有 250 個輸入文字 (每個輸入文字產生 1 個嵌入) 和 20,000 個權杖。系統只會使用每個輸入文字的前 2,048 個符記來計算嵌入。如果是 gemini-embedding-001，配額會列在 gemini-embedding 名稱下方。

每分鐘每個基礎模型嵌入內容輸入的權杖數

與先前主要受 RPM 配額限制的嵌入模型不同，Gemini Embedding 模型的配額會限制每個專案每分鐘可傳送的權杖數量。

配額	值
每分鐘嵌入內容輸入權杖數	5,000,000

Vertex AI Agent Engine 限制

下列限制適用於各區域中特定專案的 Vertex AI Agent Engine：

說明	限制
每分鐘建立、刪除或更新 Vertex AI Agent Engine	10
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段	100
`Query` 或 `StreamQuery` Vertex AI Agent Engine 每分鐘	90
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段	300
Vertex AI Agent Engine 資源數量上限	100
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源	100
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料	300
沙箱環境 (程式碼執行) 每分鐘的執行要求數	1000
每個區域的沙箱環境 (程式碼執行) 實體	1000
每分鐘的 A2A 代理程式 POST 要求，例如 `sendMessage` 和 `cancelTask`	60
每分鐘的 A2A 代理程式 get 要求，例如 `getTask` 和 `getCard`	600
每分鐘使用 `BidiStreamQuery` API 的並行即時雙向連線數	10

批次預測

所有區域的批次推論工作配額和限制都相同。

Gemini 模型並行批次推論工作限制

Gemini 模型沒有預先定義的批次推論配額限制。而是提供大量共用資源，並根據模型即時可用性，以及所有客戶對該模型的需求，動態分配資源。如果模型容量已達上限，且有大量顧客處於活躍狀態，系統可能會將批次要求排入佇列，等待容量釋出。

非 Gemini 模型並行批次推論工作配額

下表列出並行批次推論工作數量的配額，不適用於 Gemini 模型：

配額	值
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

如果提交的工作數量超過分配的配額，系統會將工作排入佇列，並在配額容量可用時處理工作。

在 Google Cloud 控制台中查看及編輯配額

如要在 Google Cloud 控制台中查看及編輯配額，請按照下列步驟操作：

前往「配額與系統限制」頁面。

前往「配額與系統限制」頁面

如要調整配額，請複製並貼上「Filter」(篩選器) 中的 aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 屬性。按下 Enter 鍵。
按一下資料列末尾的三點圖示，然後選取「編輯配額」。
在窗格中輸入新的配額值，然後按一下「提交要求」。

Vertex AI RAG 引擎

如要讓各項服務使用 RAG 引擎執行檢索增強生成 (RAG)，請遵守下列配額規定，配額以每分鐘要求數 (RPM) 計算。

服務	配額	指標
RAG Engine 資料管理 API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` 個 API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 您可以指定的額外篩選條件為 `base_model: textembedding-gecko`

以下限制適用於這類要求：

服務	限制	指標
並行 `ImportRagFiles` 要求	3 RPM	`VertexRagService concurrent import requests per region`
每個 `ImportRagFiles` 要求的檔案數量上限	10,000	`VertexRagService import rag files requests per region`

如要瞭解更多頻率限制和配額，請參閱「Vertex AI 的生成式 AI 頻率限制」。

Gen AI Evaluation Service

Gen AI Evaluation Service 會使用 gemini-2.0-flash 做為模型評估指標的預設評估模型。以模型為基礎的指標單一評估要求，可能會導致對 Gen AI Evaluation Service 的多個基礎要求。系統會根據每個專案計算各模型的配額，也就是說，凡是導向 gemini-2.0-flash 的模型推論和模型評估要求，都會計入配額。下表列出 Gen AI Evaluation Service 和基礎評估模型適用的配額：

要求配額	預設配額
每分鐘的 Gen AI Evaluation Service 要求數	每個區域每項專案 1,000 個要求
每分鐘線上預測要求數 ( `base_model: gemini-2.0-flash`)	請參閱各區域和模型的配額。

如果您在使用 Gen AI 評估服務時收到配額相關錯誤，可能需要提出配額提高要求。詳情請參閱「查看及管理配額」。

限制	值
Gen AI Evaluation Service 請求逾時	60 秒

在新的專案中首次使用生成式 AI 評估服務時，初始設定可能會延遲最多兩分鐘。如果第一次要求失敗，請稍候幾分鐘再重試。後續的評估要求通常會在 60 秒內完成。

模型指標的輸入和輸出權杖上限取決於用來做為評估模型的模型。如需型號清單，請參閱 Google 型號。

Vertex AI Pipelines 配額

每項微調工作都會使用 Vertex AI Pipelines。詳情請參閱 Vertex AI Pipelines 配額與限制。

後續步驟

如要進一步瞭解動態共用配額，請參閱「動態共用配額」。
如要瞭解 Vertex AI 的配額和限制，請參閱「Vertex AI 配額和限制」。
如要進一步瞭解 Google Cloud 配額和系統限制，請參閱 Cloud Quotas 說明文件。