如果傳送至 Gemini 的要求含有重複內容,內容快取功能有助於降低要求成本和延遲時間。Vertex AI 提供兩種快取類型:
- 隱含快取:預設啟用自動快取,快取命中時可節省費用。
- 明確快取:使用 Vertex AI API 手動啟用快取,明確宣告要快取的內容,以及提示是否應參照快取內容。
無論是隱含或明確快取,回應中繼資料的 cachedContentTokenCount
欄位都會指出輸入內容快取部分的權杖數量。快取要求必須至少包含 2,048 個權杖。
支援的模型
使用下列模型時,系統支援隱性和顯性快取:
- Gemini 2.5 Flash (預先發布版)
- Gemini 2.5 Flash-Lite (預先發布版)
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
無論是隱含或明確快取,除了標準輸入權杖費用外,寫入快取不會產生額外費用。如果是明確快取,則會根據快取儲存時間長度收取儲存費用。隱含快取不會產生儲存空間費用。詳情請參閱「Vertex AI 定價」。
隱含快取
所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記,隱含快取可為快取符記提供 75% 的折扣。
啟用後,系統會自動將隱含快取命中節省的費用轉移給你。如要提高隱含快取命中的機率,請採取下列做法:
- 在提示開頭放置大型和常見內容。
- 在短時間內傳送具有類似前置字串的要求。
明確快取
明確快取可提供更多控制選項,並確保在參照明確快取時享有 75% 的折扣。
使用 Vertex AI API,您可以:
- 建立脈絡快取,並更有效地控制這些快取。
- 使用內容快取:在提示要求中參照內容快取,並提供資源名稱。
- 將脈絡快取的到期時間 (存留時間或 TTL) 更新為超過預設的 60 分鐘。
- 不再需要時,請刪除脈絡快取。
您也可以使用 Vertex AI API 擷取脈絡快取相關資訊。
明確快取會與隱含快取互動,因此在建立快取時,可能會導致快取內容超出指定範圍。如要避免保留快取資料,請停用隱含快取,並避免建立明確快取。詳情請參閱「啟用及停用快取」。
使用脈絡快取的時機
如果後續要求會重複參照大量初始脈絡,就特別適合使用脈絡快取。
快取內容項目 (例如大量文字、音訊檔或影片檔) 可用於 Gemini API 的提示要求,以生成輸出內容。提示中使用的相同快取也會包含每個提示專屬的文字。舉例來說,組成即時通訊對話的每個提示要求,可能都包含參照影片的相同內容快取,以及組成即時通訊中每個回合的專屬文字。
請考慮在下列用途中使用脈絡快取功能:
- 具有大量系統指令的聊天機器人
- 重複分析冗長的影片檔案
- 針對大量文件集重複查詢
- 頻繁分析程式碼存放區或修正錯誤
佈建輸送量的內容快取支援功能目前為預先發布版,適用於隱含快取。佈建輸送量不支援明確快取。詳情請參閱佈建輸送量指南。
可用性
在可使用 Vertex AI 生成式 AI 的區域,您可以使用內容快取。詳情請參閱「Vertex AI 的生成式 AI 服務地區」。
限制
您明確快取的內容必須遵守下表所示的限制:
脈絡快取限制 | |
---|---|
快取權杖數下限 |
2,048 適用於所有機型
|
使用 Blob 或文字可快取的內容大小上限 |
10 MB |
快取建立後失效前的最短時間 |
1 分鐘 |
快取建立後失效前的時間上限 |
快取時間沒有上限 |
VPC Service Controls 支援
內容快取支援 VPC Service Controls,因此快取內容不會外洩到服務範圍以外。如果您使用 Cloud Storage 建構快取,請一併將 bucket 納入服務範圍,保護快取內容。
詳情請參閱 Vertex AI 說明文件中的「搭配使用 VPC Service Controls 與 Vertex AI」。
後續步驟
- 瞭解 Gemini API。
- 瞭解如何使用多模態提示。