Halaman ini memberikan informasi tentang konsep utama untuk Model Armor.
Template Model Pelindung Badan
Template Model Armor memungkinkan Anda mengonfigurasi cara Model Armor menyaring perintah dan respons. Kebijakan ini berfungsi sebagai kumpulan filter dan nilai minimum yang disesuaikan untuk berbagai tingkat keyakinan keamanan dan keselamatan, sehingga memungkinkan kontrol atas konten yang ditandai.
Nilai minimum mewakili tingkat keyakinan. Artinya, seberapa yakin Model Armor
terhadap perintah atau respons yang menyertakan konten yang menyinggung. Misalnya, Anda
dapat membuat template yang memfilter perintah untuk konten kebencian dengan nilai minimum
HIGH
, yang berarti Model Armor melaporkan keyakinan tinggi bahwa perintah
berisi konten kebencian. Nilai minimum LOW_AND_ABOVE
menunjukkan tingkat
keyakinan (LOW
, MEDIUM
, dan HIGH
) dalam membuat klaim tersebut.
Filter Model Pelindung Badan
Model Armor menawarkan berbagai filter untuk membantu Anda menyediakan model AI yang aman dan terlindungi. Berikut adalah perincian kategori filter.
Filter keamanan Responsible AI
Perintah dan respons dapat disaring pada tingkat keyakinan yang disebutkan di atas untuk kategori berikut:
Kategori | Definisi |
---|---|
Ujaran Kebencian | Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi. |
Harassment | Komentar yang mengancam, mengintimidasi, menindas, atau melecehkan yang menarget individu lain. |
Seksual Vulgar | Berisi referensi ke tindakan seksual atau konten cabul lainnya. |
Konten Berbahaya | Mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas berbahaya. |
Filter materi pelecehan seksual terhadap anak-anak (CSAM) diterapkan secara default dan tidak dapat dinonaktifkan.
Injeksi prompt dan deteksi jailbreak
Injeksi perintah adalah kerentanan keamanan saat penyerang membuat perintah khusus dalam input teks (perintah) untuk mengelabui model AI. Hal ini dapat membuat AI mengabaikan petunjuk biasanya, mengungkapkan informasi sensitif, atau melakukan tindakan yang tidak dirancang untuk dilakukan. Jailbreaking dalam konteks LLM mengacu pada tindakan mengabaikan protokol keamanan dan pedoman etika yang disertakan dalam model. Hal ini memungkinkan LLM menghasilkan respons yang awalnya dirancang untuk dihindari, seperti konten yang berbahaya, tidak etis, dan berbahaya.
Saat injeksi perintah dan deteksi jailbreak diaktifkan, Model Armor akan memindai perintah dan respons untuk konten berbahaya. Jika terdeteksi, Model Armor akan memblokir perintah atau respons.
Sensitive Data Protection
Data sensitif, seperti nama atau alamat seseorang, dapat secara tidak sengaja atau sengaja dikirim ke model atau diberikan dalam respons model.
Perlindungan Data Sensitif adalah Google Cloud layanan untuk membantu Anda menemukan, mengklasifikasikan, dan melakukan de-identifikasi data sensitif. Sensitive Data Protection dapat mengidentifikasi elemen, konteks, dan dokumen sensitif untuk membantu Anda mengurangi risiko kebocoran data yang masuk dan keluar dari beban kerja AI. Anda dapat menggunakan Perlindungan Data Sensitif langsung dalam Model Armor untuk mengubah, membuat token, dan menyamarkan elemen sensitif sekaligus mempertahankan konteks non-sensitif. Model Armor dapat menerima template inspeksi yang ada, yang merupakan konfigurasi yang berfungsi seperti cetak biru untuk menyederhanakan proses pemindaian dan identifikasi data sensitif yang spesifik untuk bisnis dan kebutuhan kepatuhan Anda. Dengan cara ini, Anda dapat memiliki konsistensi dan interoperabilitas di antara beban kerja lain yang menggunakan Perlindungan Data Sensitif.
Model Armor menawarkan dua mode untuk konfigurasi Perlindungan Data Sensitif:
Konfigurasi Perlindungan Data Sensitif Dasar: Mode ini menyediakan cara yang lebih sederhana untuk mengonfigurasi Perlindungan Data Sensitif dengan menentukan jenis data sensitif yang akan dipindai secara langsung. Fitur ini mendukung enam kategori, yaitu,
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
,GCP_API_KEY
. Konfigurasi dasar hanya memungkinkan operasi inspeksi dan tidak mendukung penggunaan template Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya, lihat Konfigurasi Perlindungan Data Sensitif dasar.Konfigurasi Perlindungan Data Sensitif Lanjutan: Mode ini menawarkan lebih banyak fleksibilitas dan penyesuaian dengan mengaktifkan penggunaan template Perlindungan Data Sensitif. Template Perlindungan Data Sensitif adalah konfigurasi standar yang memungkinkan Anda menentukan aturan deteksi dan teknik de-identifikasi yang lebih terperinci. Konfigurasi lanjutan mendukung operasi pemeriksaan dan de-identifikasi.
Meskipun tingkat keyakinan dapat ditetapkan untuk Perlindungan Data Sensitif, tingkat keyakinan tersebut beroperasi dengan cara yang sedikit berbeda dari tingkat keyakinan untuk filter lainnya. Untuk mengetahui informasi selengkapnya tentang tingkat keyakinan untuk Perlindungan Data Sensitif, lihat Kemungkinan kecocokan Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya tentang Perlindungan Data Sensitif secara umum, lihat ringkasan Perlindungan Data Sensitif.
Deteksi URL berbahaya
URL berbahaya sering kali disamarkan agar terlihat sah, sehingga menjadi alat yang efektif untuk serangan phishing, distribusi malware, dan ancaman online lainnya. Misalnya, jika PDF berisi URL berbahaya yang disematkan, PDF tersebut dapat digunakan untuk menyusup ke sistem downstream yang memproses output LLM.
Jika deteksi URL berbahaya diaktifkan, Model Armor akan memindai URL untuk mengidentifikasi apakah URL tersebut berbahaya. Hal ini memungkinkan Anda mengambil tindakan dan mencegah URL berbahaya ditampilkan.
Tingkat keyakinan Model Armor
Tingkat keyakinan dapat ditetapkan untuk kategori keamanan responsible AI (yaitu, Seksual Eksplisit, Berbahaya, Pelecehan, dan Ucapan Kebencian), Injeksi Perintah dan Jailbreak, serta Perlindungan Data Sensitif (termasuk keaktualan).
Untuk tingkat keyakinan yang memungkinkan nilai minimum terperinci, Model Armor menafsirkannya sebagai berikut:
- Tinggi: Identifikasi apakah pesan memiliki konten dengan kemungkinan tinggi.
- Sedang dan di atas: Identifikasi apakah pesan memiliki konten dengan kemungkinan sedang atau tinggi.
- Rendah dan di atas: Identifikasi apakah pesan memiliki konten dengan kemungkinan rendah, sedang, atau tinggi.
Pemindaian PDF
Teks dalam PDF dapat mencakup konten berbahaya dan sensitif. Model Armor dapat menyaring PDF untuk keamanan, upaya injeksi perintah dan jailbreak, data sensitif, dan URL berbahaya.
Setelan lantai Model Armor
Meskipun template Model Armor memberikan fleksibilitas untuk setiap aplikasi, organisasi sering kali perlu menetapkan tingkat perlindungan dasar pengukuran di semua aplikasi AI mereka. Di sinilah setelan lantai Armor Model digunakan. Aturan ini berfungsi sebagai aturan yang menentukan persyaratan minimum untuk semua template yang dibuat pada titik tertentu dalam hierarki resource Google Cloud (yaitu, di tingkat organisasi, folder, atau project).
Untuk mengetahui informasi selengkapnya, lihat Setelan lantai Model Armor.
Langkah selanjutnya
- Pelajari ringkasan Model Armor.
- Pelajari template Model Armor.
- Pelajari Setelan lantai Model Armor.
- Mensterilkan perintah dan respons.
- Pelajari logging audit Model Armor.
- Memecahkan masalah Model Armor.