Mengonfigurasi setelan keamanan untuk PaLM API

Keyakinan atribut keamanan dan penilaian tingkat keparahan

Konten yang diproses melalui Vertex AI PaLM API dinilai berdasarkan daftar atribut keamanan yang mencakup "kategori berbahaya" dan topik yang dapat dianggap sensitif.

Setiap atribut keamanan memiliki skor keyakinan terkait antara 0,0 dan 1,0, yang dibulatkan ke satu angka desimal, yang mencerminkan kemungkinan input atau respons termasuk dalam kategori tertentu.

Empat dari atribut keamanan ini (pelecehan, ujaran kebencian, konten berbahaya, dan konten seksual vulgar), diberi rating keamanan (tingkat keseriusan) dan skor keseriusan mulai dari 0,0 sampai 1,0, dibulatkan ke satu desimal. Rating dan skor ini mencerminkan prediksi tingkat keparahan konten yang termasuk dalam kategori tertentu.

Contoh respons

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Catatan: Kategori dengan skor yang dibulatkan ke 0,0 akan dihilangkan dalam respons. Contoh respons ini hanya untuk ilustrasi.

Contoh respons saat diblokir

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Deskripsi atribut keamanan

Atribut Keamanan Deskripsi
Penghinaan Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi.
Toksik Konten yang kasar, tidak sopan, atau tidak senonoh.
Seksual Berisi referensi ke tindakan seksual atau konten cabul lainnya.
Kekerasan Menjelaskan skenario yang menggambarkan kekerasan terhadap individu atau kelompok, atau deskripsi umum tentang adegan menyeramkan.
Penghinaan Komentar yang menghina, menghasut, atau negatif terhadap seseorang atau sekelompok orang.
Kata-kata tidak sopan Bahasa cabul atau vulgar seperti kata-kata umpatan.
Kematian, Bahaya & Tragedi Kematian manusia, tragedi, kecelakaan, bencana, dan tindakan menyakiti diri sendiri.
Senjata Api & Senjata Konten yang menyebutkan pisau, pistol, senjata pribadi, dan aksesori seperti amunisi, sarung pistol, dll.
Keselamatan Umum Layanan dan organisasi yang memberikan bantuan sosial dan memastikan keamanan publik.
Kesehatan Kesehatan manusia, termasuk: Kondisi, penyakit, dan gangguan kesehatan; terapi medis, pengobatan, vaksinasi, dan praktik medis; referensi untuk penyembuhan, termasuk grup dukungan.
Agama & Kepercayaan Sistem kepercayaan yang melibatkan kemungkinan adanya hukum dan makhluk supranatural; agama, iman, keyakinan, praktik spiritual, gereja, dan tempat ibadah. Termasuk astrologi dan okultisme.
Obat-Obatan Terlarang Narkoba dan narkoba; alat konsumsi dan budi daya narkoba, toko kelontong, dan lain-lain. Mencakup penggunaan obat-obatan yang biasanya digunakan secara rekreasi (misalnya, ganja).
Perang & Konflik Perang, konflik militer, dan konflik fisik besar yang melibatkan banyak orang. Mencakup diskusi tentang dinas militer, meskipun tidak terkait langsung dengan perang atau konflik.
Keuangan Layanan keuangan konsumen dan bisnis, seperti perbankan, pinjaman, kredit, investasi, asuransi, dan lainnya.
Politik Berita dan media politik; diskusi tentang kebijakan sosial, pemerintahan, dan publik.
Hukum Konten terkait hukum, termasuk: firma hukum, informasi hukum, materi hukum primer, layanan paralegal, publikasi dan teknologi hukum, saksi ahli, konsultan proses pengadilan, dan penyedia layanan hukum lainnya.

Atribut keselamatan dengan rating keselamatan

Atribut Keamanan Definisi Tingkat
Ujaran Kebencian Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi. Tinggi, Sedang, Rendah, Dapat Diabaikan
Pelecehan Komentar jahat, mengintimidasi, menindas, atau kasar yang menargetkan individu lain. Tinggi, Sedang, Rendah, Dapat Diabaikan
Seksual Vulgar Berisi referensi ke tindakan seksual atau konten cabul lainnya. Tinggi, Sedang, Rendah, Dapat Diabaikan
Konten Berbahaya Mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas berbahaya. Tinggi, Sedang, Rendah, Dapat Diabaikan

Nilai minimum keamanan

Nilai minimum keamanan diterapkan untuk atribut keamanan berikut:

  • Ujaran Kebencian
  • Pelecehan
  • Seksual Vulgar
  • Konten Berbahaya

Google memblokir respons model yang melebihi skor tingkat keparahan yang ditetapkan untuk atribut keamanan ini. Untuk meminta kemampuan mengubah nilai minimum keamanan, hubungi tim akun Google Cloud Anda.

Menguji batas keyakinan dan tingkat keparahan

Anda dapat menguji filter keamanan Google dan menentukan nilai minimum keyakinan yang tepat untuk bisnis Anda. Dengan menggunakan nilai minimum ini, Anda dapat mengambil tindakan yang komprehensif untuk mendeteksi konten yang melanggar kebijakan penggunaan atau persyaratan layanan Google dan mengambil tindakan yang sesuai.

Skor keyakinan hanyalah prediksi, dan Anda tidak perlu bergantung pada skor keandalan atau akurasi. Google tidak bertanggung jawab untuk menafsirkan atau menggunakan skor ini untuk keputusan bisnis.

Penting: Probabilitas dan Tingkat Keparahan

Dengan pengecualian empat atribut keamanan dengan rating keamanan, skor keyakinan filter keamanan PaLM API didasarkan pada probabilitas konten yang tidak aman, bukan tingkat keparahannya. Hal ini penting untuk dipertimbangkan karena beberapa konten memiliki kemungkinan rendah untuk dianggap tidak aman, meskipun tingkat keparahan bahayanya masih tinggi. Misalnya, membandingkan kalimat:

  1. Robot itu memukul saya.
  2. Robot itu menebas saya.

Kalimat 1 dapat menyebabkan kemungkinan konten tidak aman yang lebih tinggi, tetapi Anda dapat menganggap kalimat 2 sebagai tingkat keparahan yang lebih tinggi dalam hal kekerasan.

Oleh karena itu, penting bagi pelanggan untuk menguji dengan cermat dan mempertimbangkan tingkat pemblokiran yang sesuai yang diperlukan untuk mendukung kasus penggunaan utama mereka sekaligus meminimalkan bahaya bagi pengguna akhir.

Error keamanan

Kode error keamanan adalah kode tiga digit yang mewakili alasan perintah atau respons diblokir. Digit pertama adalah awalan yang menunjukkan apakah kode berlaku untuk perintah atau respons, dan digit lainnya mengidentifikasi alasan dialog atau respons diblokir. Misalnya, kode error 251 menunjukkan bahwa respons diblokir karena ada masalah dengan konten ujaran kebencian dalam respons dari model.

Beberapa kode error dapat ditampilkan dalam satu respons.

Jika Anda menemukan error yang memblokir konten dalam respons dari model (awalan = 2, misalnya 250), sesuaikan setelan temperature dalam permintaan Anda. Cara ini membantu menghasilkan serangkaian respons yang berbeda dengan lebih sedikit peluang untuk diblokir.

Awalan kode error

Awalan kode error adalah digit pertama kode error.

1 Kode error berlaku untuk prompt yang dikirim ke model.
2 Kode error berlaku untuk respons dari model.

Alasan kode error

Alasan kode error adalah digit kedua dan ketiga dari kode error.

Kode error yang dimulai dengan 3 atau 4 menunjukkan perintah atau respons diblokir karena nilai minimum keyakinan untuk pelanggaran atribut keamanan terpenuhi.

Alasan kode error yang dimulai dengan 5 menunjukkan perintah atau respons tempat konten yang tidak aman ditemukan.

10

Respons diblokir karena masalah kualitas atau setelan parameter yang memengaruhi metadata kutipan. Ini hanya berlaku untuk respons dari model. Artinya, 210.

Pemeriksa kutipan mengidentifikasi masalah kualitas yang berasal dari setelan parameter. Coba tingkatkan parameter temperature, top-k, atau top-p untuk menghasilkan respons yang berbeda.

Untuk mengetahui informasi selengkapnya, baca Metadata kutipan.

20 Bahasa yang diberikan atau ditampilkan tidak didukung. Untuk daftar bahasa yang didukung, lihat Dukungan bahasa.
30 Perintah atau respons diblokir karena dianggap berpotensi berbahaya. Suatu istilah disertakan dari daftar istilah yang tidak diizinkan. Susun ulang perintah Anda.
31 Konten tersebut dapat mencakup Informasi Identitas Pribadi (SPII) Sensitif. Sampaikan ulang perintah Anda.
40 Perintah atau respons diblokir karena dianggap berpotensi berbahaya. Konten melanggar setelan SafeSearch. Sampaikan ulang perintah Anda.
50 Perintah atau respons diblokir karena mungkin berisi konten seksual vulgar. Sampaikan ulang perintah Anda.
51 Perintah atau respons diblokir karena mungkin berisi konten ujaran kebencian. Sampaikan ulang perintah Anda.
52 Perintah atau respons diblokir karena mungkin berisi konten pelecehan. Sampaikan ulang perintah Anda.
53 Perintah atau respons diblokir karena mungkin berisi konten berbahaya. Sampaikan ulang perintah Anda.
54 Perintah atau respons diblokir karena mungkin berisi konten negatif. Sampaikan ulang perintah Anda.
00 Alasan tidak diketahui. Sampaikan ulang perintah Anda.

Setelan keamanan di Vertex AI Studio

Dengan nilai minimum filter keamanan yang dapat disesuaikan, Anda dapat menyesuaikan seberapa besar kemungkinan Anda melihat respons yang dapat berbahaya. Respons model diblokir berdasarkan kemungkinan berisi pelecehan, ujaran kebencian, konten berbahaya, atau konten seksual vulgar. Setelan filter keamanan terletak di sisi kanan kolom perintah di Vertex AI Studio. Anda dapat memilih dari tiga opsi: block most, block some, dan block few.

Gambar konsol

Langkah selanjutnya