Keamanan di Vertex AI

Model AI generatif seperti Gemini memerlukan langkah-langkah keamanan yang kuat untuk memitigasi risiko seperti menghasilkan konten berbahaya, membocorkan informasi sensitif, atau disalahgunakan.Platform Vertex AI Google menyediakan serangkaian alat dan praktik untuk menerapkan keamanan holistik bagi model Gemini Anda. Google Cloud

Potensi risiko keselamatan dan strategi mitigasi

Saat men-deploy model Gemini, penting untuk mengidentifikasi dan memitigasi berbagai potensi risiko. Pendekatan proaktif untuk memahami risiko ini memungkinkan penerapan langkah-langkah keamanan yang lebih efektif. Pendekatan berlapis terhadap keselamatan sangat penting, karena dapat mengurangi atau mencegah:

  • Risiko konten: Hal ini dapat mencakup konten yang berbahaya, kata-kata tidak sopan dan seksualisasi, serta kekerasan dan adegan sadis.
  • Risiko keamanan brand: Konten yang dihasilkan mungkin tidak sesuai dengan gaya bahasa atau nilai brand Anda, mungkin mendukung pesaing atau produk yang tidak pantas, atau menghasilkan konten yang dapat merusak reputasi.
  • Risiko keselarasan: Konten yang dihasilkan mungkin tidak relevan atau tidak akurat.
  • Risiko keamanan dan privasi: Konten yang dihasilkan dapat membocorkan data atau perintah pelatihan yang sensitif, atau pengguna yang berniat jahat dapat mencoba memaksa model untuk mengganti protokol keamanan atau berperilaku dengan cara yang tidak diinginkan.

Model yang di-deploy kami menawarkan berbagai fitur untuk mengatasi potensi masalah ini:

  • Model default dan filter yang tidak dapat dikonfigurasi memberikan jaminan keamanan umum.
  • Petunjuk sistem memberikan panduan langsung kepada model tentang perilaku dan topik yang disukai yang harus dihindari.
  • Filter konten memungkinkan Anda menetapkan nilai minimum tertentu untuk jenis bahaya umum.
  • Gemini sebagai filter menawarkan titik pemeriksaan lanjutan yang dapat disesuaikan untuk masalah keamanan yang kompleks atau bernuansa yang mungkin terlewat oleh lapisan sebelumnya atau memerlukan evaluasi yang lebih sadar konteks.
  • DLP secara khusus menangani risiko kritis kebocoran data sensitif, jika model memiliki akses ke data sensitif. Fitur ini juga memungkinkan pembuatan daftar blokir kustom.

Alat keamanan yang tersedia di Vertex AI for Gemini

Vertex AI menawarkan beberapa alat untuk mengelola keamanan model Gemini Anda. Memahami cara kerja masing-masing solusi, pertimbangannya, dan kasus penggunaan yang ideal akan membantu Anda membangun solusi keamanan yang disesuaikan.

Pendekatan Cara kerjanya Perlindungan diberikan Risiko Kapan digunakan
Setelan default: Gemini + filter yang tidak dapat dikonfigurasi Model Gemini pada dasarnya didesain dengan mempertimbangkan keamanan dan keadilan, bahkan saat menghadapi perintah yang bertentangan. Google telah berinvestasi dalam evaluasi keamanan yang komprehensif, termasuk untuk bias dan toksisitas. Setelan default mencakup lapisan perlindungan independen yang dirancang untuk mencegah pembuatan konten yang terkait dengan Materi Pelecehan Seksual terhadap Anak-Anak (CSAM) atau Konten yang Dilindungi Hak Cipta (Pembacaan). Perlindungan dasar terhadap Materi pelecehan seksual terhadap anak-anak dan hak cipta (Pembacaan) Keamanan default Gemini mungkin tidak memenuhi kebutuhan organisasi Anda. Model dapat berhalusinasi atau tidak mengikuti petunjuk. Penyerang yang gigih mungkin masih berhasil melakukan jailbreak dan injeksi prompt Alur kerja yang tidak memerlukan input berbahaya
Filter yang Dapat Dikonfigurasi Filter konten bawaan Gemini memberikan perlindungan tambahan terhadap berbagai kategori konten berbahaya, seperti konten seksual, kebencian, pelecehan, atau konten berbahaya. Anda dapat mengonfigurasi nilai minimum pemblokiran untuk setiap kategori bahaya (misalnya, BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) berdasarkan probabilitas dan/atau tingkat keparahan konten berbahaya. Lapisan ini independen dari model sehingga kuat terhadap pelarian dari batasan. Tangguh terhadap pelanggaran untuk kategori standar, sensitivitas yang dapat disesuaikan Tidak memiliki penyesuaian terperinci di luar setelan nilai minimum untuk kategori yang telah ditentukan. Terkadang dapat memblokir konten yang tidak berbahaya (positif palsu) atau tidak mendeteksi beberapa konten berbahaya (negatif palsu). Hanya tersedia untuk pemfilteran respons, bukan pemfilteran perintah. Menyediakan tingkat keamanan dasar untuk aplikasi atau agen yang berinteraksi dengan pengguna. Jika tujuan Anda adalah memastikan keamanan konten dan merek, filter konten harus dipasangkan dengan petunjuk sistem.
Petunjuk Sistem Anda dapat menginstruksikan model tentang pedoman keamanan konten dan merek Anda melalui petunjuk atau pengantar sistem. Misalnya, Anda dapat memberi tahu model "jangan menjawab pertanyaan terkait politik" atau untuk mematuhi pedoman gaya penulisan dan nada brand tertentu. Petunjuk sistem secara langsung memandu perilaku model. Dapat disesuaikan untuk keamanan konten/merek, dan dapat sangat efektif. Model dapat berhalusinasi atau tidak mengikuti petunjuk. Penyerang yang gigih mungkin masih berhasil melakukan jailbreak dan injeksi prompt Aplikasi atau agen yang memerlukan kepatuhan terhadap pedoman merek tertentu atau kebijakan konten yang bernuansa. Jika tujuan Anda adalah memastikan keamanan konten dan brand, petunjuk sistem harus dipasangkan dengan filter konten.
DLP untuk daftar blokir kustom dan Perlindungan data sensitif DLP API dapat memeriksa teks untuk mengidentifikasi dan mengklasifikasikan informasi sensitif berdasarkan berbagai pendeteksi infoType kustom dan bawaan. Setelah diidentifikasi, data tersebut dapat menerapkan teknik de-identifikasi seperti penyamaran, masking, atau tokenisasi. DLP API juga dapat digunakan untuk memblokir kata kunci. Perlindungan Input: Sebelum mengirimkan perintah atau data pengguna ke Gemini, Anda dapat meneruskan teks melalui DLP API untuk menyamarkan atau menyembunyikan informasi sensitif. Hal ini mencegah data sensitif diproses atau dicatat oleh model. Perlindungan Output: Jika ada risiko bahwa Gemini mungkin secara tidak sengaja membuat atau mengungkapkan informasi sensitif (misalnya, jika merangkum dokumen sumber yang berisi PII), output model dapat dipindai oleh DLP API sebelum dikirim ke pengguna. Pemfilteran yang canggih untuk kata-kata tidak sopan atau kata-kata kustom. Pemfilteran yang kuat untuk data sensitif. Menambahkan latensi. Dapat menyebabkan pemblokiran berlebihan. Perlindungan kehilangan data untuk agen yang memiliki akses ke data sensitif.
Gemini sebagai Filter Anda dapat menggunakan Gemini untuk memfilter perintah dan respons untuk agen atau aplikasi Anda. Hal ini melibatkan panggilan kedua ke model Gemini yang cepat dan hemat biaya (seperti Gemini Flash atau Flash Lite) untuk mengevaluasi apakah input dari pengguna atau alat, atau output dari model Gemini utama Anda, aman. Model filter diberi petunjuk untuk memutuskan apakah konten aman atau tidak aman berdasarkan kebijakan yang Anda tetapkan, termasuk keamanan konten, keamanan merek, dan ketidaksesuaian agen. Solusi ini menawarkan perlindungan yang kuat dan sangat dapat disesuaikan terhadap pelanggaran keamanan konten, masalah keamanan merek, pergeseran model, dan halusinasi, serta dapat menganalisis teks, gambar, video, dan audio untuk pemahaman yang holistik. Sangat andal dan dapat disesuaikan untuk keamanan konten/merek, penyimpangan, halusinasi; pemahaman multimodal. Biaya dan latensi tambahan. Peluang negatif palsu yang sangat jarang terjadi. Menyediakan tingkat keamanan kustom untuk aplikasi atau agen yang berinteraksi dengan pengguna
Pendekatan berlapis: filter yang dapat dikonfigurasi + instruksi sistem + DLP + Gemini sebagai filter Sangat andal dan dapat disesuaikan untuk keamanan konten/merek, penyimpangan, halusinasi; pemahaman multimodal Biaya dan latensi tambahan. Menyediakan tingkat keamanan yang kuat untuk aplikasi atau agen yang berinteraksi dengan pengguna, terutama jika penggunaan yang merugikan dan berbahaya diperkirakan akan terjadi

Evaluasi keselamatan berkelanjutan

Evaluasi keamanan berkelanjutan sangat penting untuk sistem AI, karena lanskap AI dan metode penyalahgunaan terus berkembang. Evaluasi rutin membantu mengidentifikasi kerentanan, menilai efektivitas mitigasi, beradaptasi dengan risiko yang terus berkembang, memastikan keselarasan dengan kebijakan dan nilai, membangun kepercayaan, serta mempertahankan kepatuhan. Berbagai jenis evaluasi, termasuk evaluasi pengembangan, evaluasi jaminan, pembentukan red team, evaluasi eksternal, dan pengujian tolok ukur, membantu mencapai hal ini. Cakupan evaluasi harus mencakup keamanan konten, keamanan brand, relevansi, bias dan keadilan, kebenaran, serta ketahanan terhadap serangan berbahaya. Alat seperti layanan evaluasi AI generatif Vertex AI dapat membantu upaya ini, dengan menekankan bahwa peningkatan iteratif berdasarkan temuan evaluasi sangat penting untuk pengembangan AI yang bertanggung jawab.