Gunakan cache konteks untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi. Item konteks yang di-cache, seperti teks dalam jumlah besar, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang menyusun percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video beserta teks unik yang membentuk setiap giliran dalam chat. Ukuran minimum cache konteks adalah 32.768 token.
Model yang didukung
Model berikut mendukung penyimpanan dalam cache konteks:
- Versi stabil Gemini 1.5 Flash
- Versi stabil Gemini 1.5 Pro
Untuk mengetahui informasi selengkapnya, lihat Versi model Gemini stabil yang tersedia.
Penyimpanan dalam cache konteks tersedia di wilayah tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.
Jenis MIME yang didukung
Cache konteks mendukung jenis MIME berikut:
application/pdf
audio/mp3
audio/mpeg
audio/wav
image/jpeg
image/png
text/plain
video/avi
video/flv
video/mov
video/mp4
video/mpeg
video/mpegps
video/mpg
video/wmv
Kapan harus menggunakan cache konteks
Cache konteks sangat cocok untuk skenario saat konteks awal yang substansial dirujuk berulang kali oleh permintaan yang lebih singkat. Pertimbangkan untuk menggunakan cache konteks untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem yang luas
- Analisis berulang pada file video yang panjang
- Kueri berulang terhadap set dokumen besar
- Analisis repositori kode atau perbaikan bug yang sering dilakukan
Efisiensi biaya melalui penyimpanan dalam cache
Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:
- Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
- Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan, ditagih per jam. Token yang di-cache akan dihapus saat masa berlaku cache konteks berakhir.
- Faktor lainnya: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.
Cara menggunakan cache konteks
Untuk menggunakan penyimpanan dalam cache konteks, Anda harus membuat cache konteks terlebih dahulu. Untuk mereferensikan konten cache konteks dalam permintaan perintah, gunakan nama resource-nya. Anda dapat menemukan nama resource cache konteks dalam respons perintah yang digunakan untuk membuatnya.
Setiap cache konteks memiliki waktu habis masa berlaku default yang berlangsung selama 60 menit setelah waktu pembuatannya. Jika diperlukan, Anda dapat menentukan waktu habis masa berlaku yang berbeda saat membuat cache konteks atau memperbarui waktu habis masa berlaku cache konteks yang belum habis masa berlakunya.
Topik berikut mencakup detail dan contoh yang membantu Anda membuat, menggunakan, memperbarui, mendapatkan informasi tentang, dan menghapus cache konteks:
- Membuat cache konteks
- Menggunakan cache konteks
- Mendapatkan informasi tentang cache konteks
- Memperbarui waktu habis masa berlaku cache konteks
- Menghapus cache konteks
Dukungan Kontrol Layanan VPC
Cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstrak di luar perimeter layanan. Jika Anda menggunakan Cloud Storage untuk membuat cache, sertakan bucket Anda dalam perimeter layanan untuk melindungi konten cache Anda.
Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.
Langkah selanjutnya
- Pelajari Gemini API.
- Pelajari cara menggunakan perintah multimodal.