脈絡快取總覽

背景資訊快取功能旨在減少含有重複內容的 Gemini 要求成本和延遲時間。

根據預設,Google 會自動快取所有 Gemini 模型的輸入內容,以減少延遲,並加快後續提示的回覆速度。

對於 Gemini 2.5 Flash (輸入詞元數量下限為 1,024) 和 Gemini 2.5 Pro (輸入詞元數量下限為 2,048) 模型,如果發生快取命中,系統會以標準輸入詞元 75% 的折扣,向您收取快取輸入詞元的費用。

在回應的中繼資料欄位中查看快取命中權杖資訊。如要停用這項功能,請參閱「生成式 AI 與資料治理」。

透過 Vertex AI API,您可以建立內容快取,並透過下列方式進一步控管:

您也可以使用 Vertex AI API 取得脈絡快取相關資訊

請注意,使用 Vertex AI API 快取要求時,輸入權杖的費用會享有 25% 的折扣,與標準輸入權杖的折扣相同,因此可確保節省成本。此外,系統也會根據資料儲存時間長度收取儲存費用。

使用脈絡快取的時機

如果後續要求會重複參照大量初始脈絡,就特別適合使用脈絡快取。

快取背景資訊項目 (例如大量文字、音訊檔案或影片檔案) 可用於 Gemini API 的提示要求,以生成輸出內容。在提示中使用相同快取的要求也會包含每個提示專屬的文字。舉例來說,組成即時通訊對話的每個提示要求,可能都包含參照影片的相同內容快取,以及組成即時通訊中每個回合的專屬文字。

請考慮在下列用途中使用脈絡快取功能:

  • 具有大量系統指令的聊天機器人
  • 重複分析冗長的影片檔案
  • 針對大量文件集重複查詢
  • 頻繁分析程式碼存放區或修正錯誤

透過快取提高成本效益

情境快取是付費功能,可降低整體營運成本。計費依據下列因素:

  • 快取權杖數:快取的輸入權杖數,納入後續提示時會以較低的費率計費。
  • 儲存時間:儲存快取權杖的時間長度,以小時計費。脈絡快取過期時,系統會刪除快取權杖。
  • 其他因素:系統會收取其他費用,例如非快取輸入權杖和輸出權杖的費用。

如要查看輸入內容快取部分的權杖數量,請前往回應的元資料欄位,然後查看 cachedContentTokenCount 欄位。

佈建輸送量的內容快取支援功能目前為預先發布版,適用於預設快取。使用 Vertex AI API 進行內容快取時,不支援佈建輸送量。詳情請參閱「佈建輸送量指南」。

支援的模型

下列 Gemini 模型支援內容快取:

詳情請參閱「可用的 Gemini 穩定版模型版本」。請注意,內容快取支援所有 MIME 類型,適用於支援的模型。

可用性

在可使用 Vertex AI 生成式 AI 的區域,您可以使用內容快取。詳情請參閱「Vertex AI 生成式 AI 服務地區」。

VPC Service Controls 支援

內容快取支援 VPC Service Controls,因此快取內容不會外洩到服務範圍以外。如果您使用 Cloud Storage 建構快取,請一併將值區納入服務安全防護範圍,保護快取內容。

詳情請參閱 Vertex AI 說明文件中的「VPC Service Controls with Vertex AI」。

後續步驟