脈絡快取總覽

如果傳送至 Gemini 的要求含有重複內容,內容快取功能有助於降低要求成本和延遲時間。Vertex AI 提供兩種快取類型:

  • 隱含快取:預設啟用自動快取,快取命中時可節省費用。
  • 明確快取:使用 Vertex AI API 手動啟用快取,明確宣告要快取的內容,以及提示是否應參照快取內容。

無論是隱含或明確快取,回應中繼資料的 cachedContentTokenCount 欄位都會指出輸入內容快取部分中的權杖數量。快取要求必須至少包含 2,048 個權杖。

使用下列模型時,系統支援隱性和顯性快取:

無論是隱含或明確快取,除了標準輸入權杖費用外,寫入快取不會產生額外費用。如果是明確快取,則會根據快取儲存時間長度收取儲存費用。隱含快取不會產生儲存空間費用。詳情請參閱「Vertex AI 定價」。

隱含快取

所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記,隱含快取可為快取符記提供 75% 的折扣。

啟用後,系統會自動將隱含快取命中節省的費用轉移給你。如要提高隱含快取命中的機率,請採取下列做法:

  • 在提示開頭放置大型和常見內容。
  • 在短時間內傳送具有類似前置字串的要求。

明確快取

明確快取可提供更多控制選項,並確保在參照明確快取時享有 75% 的折扣。

使用 Vertex AI API,您可以:

您也可以使用 Vertex AI API 擷取脈絡快取相關資訊

明確快取會與隱含快取互動,因此在建立快取時,可能會導致快取內容超出指定範圍。如要避免保留快取資料,請停用隱含快取,並避免建立明確快取。詳情請參閱「啟用及停用快取」。

使用脈絡快取的時機

如果後續要求會重複參照大量初始脈絡,就特別適合使用脈絡快取。

快取內容項目 (例如大量文字、音訊檔或影片檔) 可用於 Gemini API 的提示要求,以生成輸出內容。提示中使用相同快取的要求也會包含每個提示專屬的文字。舉例來說,組成對話的每個提示要求可能都包含相同的內容快取,其中參照影片,以及組成對話中每個回合的專屬文字。

請考慮在下列用途中使用脈絡快取功能:

  • 具有大量系統指令的聊天機器人
  • 重複分析冗長的影片檔案
  • 針對大量文件集重複查詢
  • 頻繁分析程式碼存放區或修正錯誤

佈建輸送量的內容快取支援功能目前為預先發布版,適用於隱含快取。佈建輸送量不支援明確快取。詳情請參閱佈建輸送量指南

可用性

在可使用 Vertex AI 生成式 AI 的區域,您可以使用內容快取。詳情請參閱「Vertex AI 的生成式 AI 服務地區」。

限制

您明確快取的內容必須遵守下表所示的限制:

脈絡快取限制

快取權杖數下限

2,048 適用於所有機型

使用 Blob 或文字可快取的內容大小上限

10 MB

快取建立後失效前的最短時間

1 分鐘

快取建立後失效前的時間上限

快取時間沒有上限

VPC Service Controls 支援

內容快取支援 VPC Service Controls,因此快取內容不會外洩到服務範圍以外。如果您使用 Cloud Storage 建構快取,請一併將 bucket 納入服務範圍,保護快取內容。

詳情請參閱 Vertex AI 說明文件中的「VPC Service Controls with Vertex AI」。

後續步驟