Petunjuk sistem untuk keselamatan

Petunjuk sistem adalah alat yang efektif untuk memandu perilaku model bahasa besar. Dengan memberikan petunjuk yang jelas dan spesifik, Anda dapat membantu model menghasilkan respons yang aman dan sesuai dengan kebijakan Anda.

Petunjuk sistem dapat digunakan untuk menambah atau mengganti filter keamanan. Petunjuk sistem secara langsung mengarahkan perilaku model, sedangkan filter keamanan bertindak sebagai penghalang terhadap serangan bermotivasi, yang memblokir output berbahaya apa pun yang mungkin dihasilkan model. Pengujian kami menunjukkan bahwa dalam banyak situasi, petunjuk sistem yang dibuat dengan baik sering kali lebih efektif daripada filter keamanan dalam menghasilkan output yang aman.

Halaman ini menguraikan praktik terbaik untuk membuat petunjuk sistem yang efektif guna mencapai sasaran ini.

Contoh petunjuk sistem

Terjemahkan kebijakan dan batasan spesifik organisasi Anda menjadi petunjuk yang jelas dan dapat ditindaklanjuti untuk model. Hal ini dapat mencakup:

  • Topik yang dilarang: Beri petunjuk secara eksplisit kepada model untuk menghindari pembuatan output yang termasuk dalam kategori konten berbahaya tertentu, seperti konten seksual atau diskriminatif.
  • Topik sensitif: Memberi petunjuk secara eksplisit kepada model tentang topik yang harus dihindari atau ditangani dengan hati-hati, seperti politik, agama, atau topik kontroversial.
  • Pernyataan penyangkalan: Berikan pernyataan penyangkalan jika model menemukan topik yang dilarang.

Contoh untuk mencegah konten tidak aman, mirip dengan yang dicapai oleh filter keamanan yang dapat dikonfigurasi:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
  goods, services, and activities.

Contoh untuk mencegah konten tidak aman yang melampaui apa yang dilakukan oleh filter keamanan yang dapat dikonfigurasi:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Pedoman keamanan merek

Petunjuk sistem harus selaras dengan identitas dan nilai merek Anda. Hal ini membantu model menghasilkan respons yang berkontribusi positif pada citra merek Anda dan menghindari potensi kerusakan. Pertimbangkan hal berikut:

  • Gaya dan nada merek: Menginstruksikan model untuk menghasilkan respons yang konsisten dengan gaya komunikasi merek Anda. Hal ini dapat mencakup formal atau informal, lucu atau serius, dll.
  • Nilai brand: Memandu output model untuk mencerminkan nilai inti brand Anda. Misalnya, jika keberlanjutan adalah nilai utama, model harus menghindari pembuatan konten yang mempromosikan praktik yang berbahaya bagi lingkungan.
  • Target audiens: Sesuaikan bahasa dan gaya model agar sesuai dengan target audiens Anda.
  • Percakapan kontroversial atau di luar topik: Berikan panduan yang jelas tentang cara model menangani topik sensitif atau kontroversial yang terkait dengan merek atau industri Anda.

Contoh untuk agen pelanggan untuk retailer online:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Petunjuk Menguji dan Meningkatkan Kualitas

Keuntungan utama petunjuk sistem dibandingkan filter keamanan adalah Anda dapat menyesuaikan dan meningkatkan petunjuk sistem. Penting untuk melakukan hal berikut:

  • Melakukan pengujian: Bereksperimen dengan berbagai versi petunjuk untuk menentukan mana yang menghasilkan hasil paling aman dan paling efektif.
  • Lakukan iterasi dan tingkatkan kualitas petunjuk: Perbarui petunjuk berdasarkan perilaku dan masukan model yang diamati. Anda dapat menggunakan Prompt Optimizer untuk meningkatkan perintah dan petunjuk sistem.
  • Pantau output model secara terus-menerus: Tinjau respons model secara rutin untuk mengidentifikasi area yang perlu disesuaikan instruksinya.

Dengan mengikuti panduan ini, Anda dapat menggunakan petunjuk sistem untuk membantu model menghasilkan output yang aman, bertanggung jawab, dan selaras dengan kebutuhan dan kebijakan spesifik Anda.

Langkah selanjutnya