Gunakan cache konteks untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi. Item konteks dalam cache, seperti teks, file audio, atau file video dalam jumlah besar, dapat digunakan dalam perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam prompt, sertakan juga teks unik untuk setiap prompt. Misalnya, setiap prompt permintaan yang membuat percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video beserta teks unik yang meliputi setiap giliran dalam percakapan. Ukuran minimum cache konteks adalah 32.769 token.
Model yang didukung
Model berikut mendukung penyimpanan dalam cache konteks:
- Versi stabil Gemini 1.5 Flash
- Versi stabil Gemini 1.5 Pro
Untuk informasi selengkapnya, lihat Versi model stabil Gemini yang tersedia.
Cache konteks tersedia di region tempat AI Generatif di Vertex AI tersedia yang tersedia. Untuk informasi selengkapnya, lihat AI Generatif di lokasi Vertex AI.
Jenis MIME yang didukung
Cache konteks mendukung jenis MIME berikut:
application/pdf
audio/mp3
audio/mpeg
audio/wav
image/jpeg
image/png
text/plain
video/avi
video/flv
video/mov
video/mp4
video/mpeg
video/mpegps
video/mpg
video/wmv
Kapan harus menggunakan cache konteks
Cache konteks sangat cocok untuk skenario di mana konteks awal dirujuk berulang kali oleh permintaan yang lebih singkat. Pertimbangkan untuk menggunakan cache konteks untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem lengkap
- Analisis berulang terhadap file video yang panjang
- Kueri berulang pada kumpulan dokumen berukuran besar
- Analisis repositori kode yang sering atau perbaikan bug
Efisiensi biaya melalui penyimpanan dalam cache
Penyimpanan cache konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:
- Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan pengurangan tarif jika disertakan dalam perintah berikutnya.
- Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan dan ditagih setiap jam. Token yang di-cache akan dihapus saat cache konteks tidak berlaku lagi.
- Faktor lain: Biaya lain berlaku, seperti untuk token input yang tidak di-cache dan token output.
Cara menggunakan cache konteks
Untuk menggunakan cache konteks, Anda membuat cache konteks terlebih dahulu. Untuk mereferensikan isi cache konteks dalam permintaan prompt, gunakan nama resource-nya. Anda dapat temukan nama sumber daya dari {i>cache<i} konteks dalam respons perintah yang digunakan untuk membuatnya.
Setiap cache konteks memiliki waktu habis masa berlaku default, yaitu 60 menit setelah waktu pembuatannya. Jika perlu, Anda dapat menentukan waktu habis masa berlaku yang berbeda saat Anda membuat cache konteks atau memperbarui waktu habis masa berlaku cache konteks.
Topik berikut mencakup detail dan contoh yang membantu Anda membuat, menggunakan, mengupdate, mendapatkan informasi tentang, dan menghapus cache konteks:
- Membuat cache konteks
- Menggunakan cache konteks
- Mendapatkan informasi tentang cache konteks
- Memperbarui waktu habis masa berlaku cache konteks
- Menghapus cache konteks
Langkah selanjutnya
- Pelajari Gemini API.
- Pelajari cara menggunakan perintah multimodal.