Penyimpanan dalam cache prompt

Model Anthropic Claude menawarkan penyimpanan dalam cache prompt untuk mengurangi latensi dan biaya saat menggunakan kembali konten yang sama dalam beberapa permintaan. Saat mengirim kueri, Anda dapat meng-cache semua atau bagian tertentu dari input sehingga kueri berikutnya dapat menggunakan hasil yang di-cache dari permintaan sebelumnya. Hal ini menghindari biaya komputasi dan jaringan tambahan. Cache bersifat unik untuk project Google Cloud Anda dan tidak dapat digunakan oleh project lain.

Untuk mengetahui detail tentang cara menyusun perintah, lihat dokumentasi Pemcachean perintah Anthropic.

Model Claude Anthropic yang didukung

Vertex AI mendukung penyimpanan dalam cache perintah untuk model Claude Anthropic berikut:

  • Claude 3.5 Sonnet v2 (claude-3-5-sonnet-v2@20241022)
  • Claude 3.5 Sonnet (claude-3-5-sonnet@20240620)
  • Claude 3.5 Haiku (claude-3-5-haiku@20241022)
  • Claude 3 Haiku (claude-3-haiku@20240307)
  • Claude 3 Opus (claude-3-opus@20240229)

Pemrosesan data

Cache perintah eksplisit Anthropic adalah fitur dari model Claude Anthropic. Penawaran Vertex AI untuk model Anthropic ini berperilaku seperti yang dijelaskan dalam dokumentasi Anthropic.

Penyimpanan dalam cache perintah adalah fitur opsional. Claude menghitung hash (sidik jari) permintaan untuk menyimpan kunci dalam cache. Hash ini hanya dihitung untuk permintaan yang mengaktifkan cache.

Meskipun penyimpanan dalam cache perintah adalah fitur yang diterapkan oleh model Claude, dari perspektif penanganan data, Google menganggap hash ini sebagai jenis "Metadata Pengguna". Data tersebut diperlakukan sebagai "Data Layanan" pelanggan berdasarkan Google CloudPemberitahuan Privasi, bukan sebagai "Data Pelanggan" berdasarkan Adendum Pemrosesan Data Cloud (Pelanggan). Secara khusus, perlindungan tambahan untuk "Data Pelanggan" tidak berlaku untuk hash ini. Google tidak menggunakan hash ini untuk tujuan lain.

Jika Anda ingin sepenuhnya menonaktifkan fitur penyimpanan dalam cache perintah ini dan membuatnya tidak tersedia di project Google Cloud tertentu, Anda dapat memintanya dengan menghubungi dukungan pelanggan dan memberikan nomor project yang relevan. Setelah penyimpanan dalam cache eksplisit dinonaktifkan untuk project, permintaan dari project dengan penyimpanan dalam cache prompt yang diaktifkan akan ditolak.

Menggunakan cache perintah

Anda dapat menggunakan Anthropic Claude SDK atau Vertex AI REST API untuk mengirim permintaan ke endpoint Vertex AI.

Untuk informasi selengkapnya, lihat Cara kerja caching prompt.

Untuk contoh tambahan, lihat Contoh penyimpanan dalam cache Prompt di dokumentasi Anthropic.

Penyimpanan dalam cache terjadi secara otomatis saat permintaan berikutnya berisi parameter teks, gambar, dan cache_control yang identik dengan permintaan pertama. Semua permintaan juga harus menyertakan parameter cache_control dalam blok yang sama.

Cache memiliki masa aktif lima menit. Cache ini diperbarui setiap kali konten yang di-cache diakses.

Harga

Cache perintah dapat memengaruhi biaya penagihan. Perhatikan bahwa:

  • Token tulis cache 25% lebih mahal daripada token input dasar
  • Token baca cache 90% lebih murah daripada token input dasar
  • Token input dan output reguler dihargai dengan tarif standar

Untuk mengetahui informasi selengkapnya, lihat halaman Harga.