Ringkasan penyimpanan cache konteks

Gunakan cache konteks untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi. Item konteks yang di-cache, seperti teks dalam jumlah besar, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang menyusun percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video beserta teks unik yang membentuk setiap giliran dalam chat. Ukuran minimum cache konteks adalah 32.768 token.

Model yang didukung

Model berikut mendukung penyimpanan dalam cache konteks:

  • Versi stabil Gemini 1.5 Flash
  • Versi stabil Gemini 1.5 Pro

Untuk mengetahui informasi selengkapnya, lihat Versi model Gemini stabil yang tersedia.

Penyimpanan dalam cache konteks tersedia di wilayah tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.

Jenis MIME yang didukung

Cache konteks mendukung jenis MIME berikut:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Kapan harus menggunakan cache konteks

Cache konteks sangat cocok untuk skenario saat konteks awal yang substansial dirujuk berulang kali oleh permintaan yang lebih singkat. Pertimbangkan untuk menggunakan caching konteks untuk kasus penggunaan seperti:

  • Chatbot dengan petunjuk sistem yang luas
  • Analisis berulang pada file video yang panjang
  • Kueri berulang terhadap set dokumen besar
  • Analisis repositori kode atau perbaikan bug yang sering dilakukan

Efisiensi biaya melalui penyimpanan dalam cache

Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:

  • Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
  • Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan, ditagih per jam. Token yang di-cache akan dihapus saat masa berlaku cache konteks berakhir.
  • Faktor lainnya: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.

Cara menggunakan cache konteks

Untuk menggunakan cache konteks, Anda harus membuat cache konteks terlebih dahulu. Untuk mereferensikan konten cache konteks dalam permintaan perintah, gunakan nama resource-nya. Anda dapat menemukan nama resource cache konteks dalam respons perintah yang digunakan untuk membuatnya.

Setiap cache konteks memiliki waktu habis masa berlaku default yang berlangsung selama 60 menit setelah waktu pembuatannya. Jika diperlukan, Anda dapat menentukan waktu habis masa berlaku yang berbeda saat membuat cache konteks atau memperbarui waktu habis masa berlaku cache konteks yang belum habis masa berlakunya.

Topik berikut mencakup detail dan contoh yang membantu Anda membuat, menggunakan, memperbarui, mendapatkan informasi tentang, dan menghapus cache konteks:

Dukungan Kontrol Layanan VPC

Cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstrak di luar perimeter layanan. Jika Anda menggunakan Cloud Storage untuk membuat cache, sertakan bucket Anda dalam perimeter layanan untuk melindungi konten cache Anda.

Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.

Langkah selanjutnya