Mengonfigurasi setelan keamanan untuk PaLM API

Filter keamanan yang dapat dikonfigurasi

Skor keyakinan dan keparahan atribut keamanan

Konten yang diproses melalui PaLM API Vertex AI dinilai berdasarkan daftar atribut keamanan, yang mencakup "kategori berbahaya" dan topik yang dapat dianggap sensitif.

Setiap atribut keamanan memiliki skor keyakinan terkait antara 0,0 dan 1,0, yang dibulatkan ke satu angka desimal, yang mencerminkan kemungkinan input atau respons termasuk dalam kategori tertentu.

Empat dari atribut keamanan ini (pelecehan, ujaran kebencian, konten berbahaya, dan seksual vulgar), diberi rating keamanan (tingkat keparahan) dan skor keparahan yang berkisar antara 0,0 hingga 1,0, yang dibulatkan ke satu angka desimal. Rating dan skor ini mencerminkan prediksi tingkat keparahan konten yang termasuk dalam kategori tertentu.

Contoh respons

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Catatan: Kategori dengan skor yang dibulatkan ke 0,0 akan dihilangkan dalam respons. Contoh respons ini hanya untuk ilustrasi.

Contoh respons saat diblokir

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Deskripsi atribut keamanan

Atribut Keamanan Deskripsi
Penghinaan Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi.
Toksik Konten yang kasar, tidak sopan, atau tidak senonoh.
Seksual Berisi referensi ke tindakan seksual atau konten cabul lainnya.
Kekerasan Menjelaskan skenario yang menggambarkan kekerasan terhadap individu atau kelompok, atau deskripsi umum tentang adegan menyeramkan.
Penghinaan Komentar yang menghina, menghasut, atau negatif terhadap seseorang atau sekelompok orang.
Kata-kata tidak sopan Bahasa cabul atau vulgar seperti kata-kata umpatan.
Kematian, Bahaya & Tragedi Kematian manusia, tragedi, kecelakaan, bencana, dan tindakan menyakiti diri sendiri.
Senjata Api & Senjata Konten yang menyebutkan pisau, pistol, senjata pribadi, dan aksesori seperti amunisi, sarung pistol, dll.
Keselamatan Umum Layanan dan organisasi yang memberikan bantuan sosial dan memastikan keamanan publik.
Kesehatan Kesehatan manusia, termasuk: Kondisi kesehatan, penyakit, dan gangguan; terapi medis, pengobatan, vaksinasi, dan praktik medis; referensi untuk penyembuhan, termasuk kelompok pendukung.
Agama & Kepercayaan Sistem kepercayaan yang melibatkan kemungkinan adanya hukum dan makhluk supranatural; agama, iman, keyakinan, praktik spiritual, gereja, dan tempat ibadah. Termasuk astrologi dan okultisme.
Illicit Drugs Obat-obatan rekreasional dan terlarang; alat konsumsi dan budi daya narkoba, toko tembakau, dan lainnya. Termasuk penggunaan obat-obatan sebagai obat yang biasanya digunakan untuk tujuan rekreasi (misalnya, ganja).
Perang & Konflik Perang, konflik militer, dan konflik fisik besar yang melibatkan banyak orang. Mencakup diskusi tentang dinas militer, meskipun tidak terkait langsung dengan perang atau konflik.
Keuangan Layanan keuangan konsumen dan bisnis, seperti perbankan, pinjaman, kredit, investasi, asuransi, dan lainnya.
Politik Berita dan media politik; diskusi tentang kebijakan sosial, pemerintahan, dan publik.
Hukum Konten terkait hukum, termasuk: firma hukum, informasi hukum, materi hukum primer, layanan paralegal, publikasi dan teknologi hukum, saksi ahli, konsultan proses pengadilan, dan penyedia layanan hukum lainnya.

Atribut keamanan dengan rating keamanan

Atribut Keamanan Definisi Tingkat
Ujaran Kebencian Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi. Tinggi, Sedang, Rendah, Tidak Berpengaruh
Pelecehan Komentar yang jahat, mengintimidasi, menindas, atau melecehkan yang menarget individu lain. Tinggi, Sedang, Rendah, Tidak Berpengaruh
Seksual Vulgar Berisi referensi ke tindakan seksual atau konten cabul lainnya. Tinggi, Sedang, Rendah, Tidak Berpengaruh
Konten Berbahaya Mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas berbahaya. Tinggi, Sedang, Rendah, Tidak Berpengaruh

Nilai minimum keamanan

Nilai minimum keamanan diterapkan untuk atribut keamanan berikut:

  • Ujaran Kebencian
  • Pelecehan
  • Seksual Vulgar
  • Konten Berbahaya

Google memblokir respons model yang melebihi skor keparahan yang ditentukan untuk atribut keamanan ini. Untuk meminta kemampuan mengubah nilai minimum keamanan, hubungi tim akun Google Cloud Anda.

Menguji nilai minimum keyakinan dan keparahan

Anda dapat menguji filter keamanan Google dan menentukan nilai minimum keyakinan yang tepat untuk bisnis Anda. Dengan menggunakan nilai minimum ini, Anda dapat mengambil tindakan yang komprehensif untuk mendeteksi konten yang melanggar kebijakan penggunaan atau persyaratan layanan Google dan mengambil tindakan yang sesuai.

Skor keyakinan hanyalah prediksi, dan Anda tidak boleh bergantung pada skor tersebut dalam hal keandalan atau akurasi. Google tidak bertanggung jawab untuk menafsirkan atau menggunakan skor ini untuk keputusan bisnis.

Penting: Probabilitas dan Tingkat Keparahan

Dengan pengecualian empat atribut keamanan dengan rating keamanan, skor keyakinan filter keamanan PaLM API didasarkan pada kemungkinan konten tidak aman, bukan tingkat keparahannya. Hal ini penting untuk dipertimbangkan karena beberapa konten memiliki kemungkinan rendah untuk dianggap tidak aman, meskipun tingkat keparahan bahayanya masih tinggi. Misalnya, membandingkan kalimat:

  1. Robot itu memukul saya.
  2. Robot itu menebas saya.

Kalimat 1 dapat menyebabkan kemungkinan konten tidak aman yang lebih tinggi, tetapi Anda dapat menganggap kalimat 2 sebagai tingkat keparahan yang lebih tinggi dalam hal kekerasan.

Oleh karena itu, penting bagi pelanggan untuk menguji dengan cermat dan mempertimbangkan tingkat pemblokiran yang sesuai yang diperlukan untuk mendukung kasus penggunaan utama mereka sekaligus meminimalkan bahaya bagi pengguna akhir.

Setelan keamanan di Vertex AI Studio

Dengan nilai minimum filter keamanan yang dapat disesuaikan, Anda dapat menyesuaikan seberapa besar kemungkinan Anda melihat respons yang dapat berbahaya. Respons model diblokir berdasarkan probabilitas bahwa konten tersebut berisi pelecehan, ujaran kebencian, konten berbahaya, atau konten seksual vulgar. Setelan filter keamanan terletak di sisi kanan kolom perintah di Vertex AI Studio. Anda dapat memilih dari tiga opsi: block most, block some, dan block few.

Console-image

Filter kutipan

Fitur kode generatif kami dimaksudkan untuk memproduksi konten asli dan tidak mereplikasi konten yang sudah ada sepenuhnya. Kami telah mendesain agar sistem kami membatasi kemungkinan terjadinya hal ini, dan terus meningkatkan cara kerja sistem ini. Jika fitur ini mengutip dari suatu halaman web sepenuhnya secara langsung, maka fitur ini akan mengutip halaman tersebut.

Terkadang konten yang sama dapat ditemukan di beberapa halaman web dan kami akan mencoba mengarahkan Anda ke sumber yang populer. Dalam hal kutipan repositori kode, kutipan juga dapat merujuk ke lisensi open source yang berlaku. Mematuhi setiap persyaratan lisensi adalah tanggung jawab Anda.

Untuk mempelajari metadata filter kutipan, lihat Referensi Citation API.

Error keamanan

Kode error keamanan adalah kode tiga digit yang mewakili alasan perintah atau respons diblokir. Digit pertama adalah awalan yang menunjukkan apakah kode berlaku untuk perintah atau respons, dan digit lainnya mengidentifikasi alasan perintah atau respons diblokir. Misalnya, kode error 251 menunjukkan bahwa respons diblokir karena masalah dengan konten ujaran kebencian dalam respons dari model.

Beberapa kode error dapat ditampilkan dalam satu respons.

Jika Anda mengalami error yang memblokir konten dalam respons dari model (awalan = 2, misalnya 250), sesuaikan setelan temperature dalam permintaan Anda. Hal ini membantu menghasilkan kumpulan respons yang berbeda dengan peluang lebih kecil untuk diblokir.

Awalan kode error

Awalan kode error adalah digit pertama kode error.

1 Kode error berlaku untuk perintah yang dikirim ke model.
2 Kode error berlaku untuk respons dari model.

Alasan kode error

Alasan kode error adalah digit kedua dan ketiga dari kode error.

Alasan kode error yang dimulai dengan 3 atau 4 menunjukkan perintah atau respons yang diblokir karena nilai minimum keyakinan untuk pelanggaran atribut keamanan terpenuhi.

Alasan kode error yang dimulai dengan 5 menunjukkan perintah atau respons tempat konten tidak aman ditemukan.

10

Respons diblokir karena masalah kualitas atau setelan parameter yang memengaruhi metadata kutipan. Hal ini hanya berlaku untuk respons dari model. Artinya, 210.

Pemeriksa kutipan mengidentifikasi masalah kualitas atau masalah yang berasal dari setelan parameter. Coba tingkatkan parameter temperature, top-k, atau top-p untuk menghasilkan respons yang berbeda.

Untuk mengetahui informasi selengkapnya, lihat Filter kutipan.

20 Bahasa yang diberikan atau ditampilkan tidak didukung. Untuk mengetahui daftar bahasa yang didukung, lihat Dukungan bahasa.
30 Perintah atau respons diblokir karena ditemukan berpotensi berbahaya. Istilah disertakan dari daftar yang tidak diizinkan terminologi. Susun ulang perintah Anda.
31 Konten tersebut mungkin berisi Informasi Identitas Pribadi yang Sensitif (SPII). Susun ulang kata-kata pada perintah Anda.
40 Perintah atau respons diblokir karena ditemukan berpotensi berbahaya. Konten tersebut melanggar setelan SafeSearch. Susun ulang kata-kata pada perintah Anda.
50 Perintah atau respons diblokir karena mungkin berisi konten seksual vulgar. Susun ulang kata-kata pada perintah Anda.
51 Perintah atau respons diblokir karena mungkin berisi konten ujaran kebencian. Susun ulang kata-kata pada perintah Anda.
52 Perintah atau respons diblokir karena mungkin berisi konten pelecehan. Susun ulang kata-kata pada perintah Anda.
53 Perintah atau respons diblokir karena mungkin berisi konten berbahaya. Susun ulang kata-kata pada perintah Anda.
54 Perintah atau respons diblokir karena mungkin berisi konten negatif. Susun ulang kata-kata pada perintah Anda.
00 Alasan tidak diketahui. Susun ulang kata-kata pada perintah Anda.

Langkah selanjutnya