Petunjuk sistem dapat digunakan untuk menambah atau mengganti filter keamanan. Petunjuk sistem secara langsung mengarahkan perilaku model, sedangkan filter keamanan bertindak sebagai penghalang terhadap serangan bermotivasi, yang memblokir output berbahaya apa pun yang mungkin dihasilkan model. Pengujian kami menunjukkan bahwa dalam banyak situasi, petunjuk sistem yang dibuat dengan baik sering kali lebih efektif daripada filter keamanan dalam menghasilkan output yang aman.
Halaman ini menguraikan praktik terbaik untuk membuat petunjuk sistem yang efektif guna mencapai sasaran ini.
Contoh petunjuk sistem
Terjemahkan kebijakan dan batasan spesifik organisasi Anda menjadi petunjuk yang jelas dan dapat ditindaklanjuti untuk model. Hal ini dapat mencakup:
- Topik yang dilarang: Beri petunjuk secara eksplisit kepada model untuk menghindari pembuatan output yang termasuk dalam kategori konten berbahaya tertentu, seperti konten seksual atau diskriminatif.
- Topik sensitif: Memberi petunjuk secara eksplisit kepada model tentang topik yang harus dihindari atau ditangani dengan hati-hati, seperti politik, agama, atau topik kontroversial.
- Pernyataan penyangkalan: Berikan pernyataan penyangkalan jika model menemukan topik yang dilarang.
Contoh untuk mencegah konten tidak aman, mirip dengan yang dicapai oleh filter keamanan yang dapat dikonfigurasi:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
goods, services, and activities.
Contoh untuk mencegah konten tidak aman yang melampaui apa yang dilakukan oleh filter keamanan yang dapat dikonfigurasi:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status, or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
accessories unless absolutely necessary and in a safe and responsible context.
If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"
Pedoman keamanan merek
Petunjuk sistem harus selaras dengan identitas dan nilai merek Anda. Hal ini membantu model menghasilkan respons yang berkontribusi positif pada citra merek Anda dan menghindari potensi kerusakan. Pertimbangkan hal berikut:
- Gaya dan nada merek: Menginstruksikan model untuk menghasilkan respons yang konsisten dengan gaya komunikasi merek Anda. Hal ini dapat mencakup formal atau informal, lucu atau serius, dll.
- Nilai brand: Memandu output model untuk mencerminkan nilai inti brand Anda. Misalnya, jika keberlanjutan adalah nilai utama, model harus menghindari pembuatan konten yang mempromosikan praktik yang berbahaya bagi lingkungan.
- Target audiens: Sesuaikan bahasa dan gaya model agar sesuai dengan target audiens Anda.
- Percakapan kontroversial atau di luar topik: Berikan panduan yang jelas tentang cara model menangani topik sensitif atau kontroversial yang terkait dengan merek atau industri Anda.
Contoh untuk agen pelanggan untuk retailer online:
You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.
You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies
You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns
If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"
Petunjuk Menguji dan Meningkatkan Kualitas
Keuntungan utama petunjuk sistem dibandingkan filter keamanan adalah Anda dapat menyesuaikan dan meningkatkan petunjuk sistem. Penting untuk melakukan hal berikut:
- Melakukan pengujian: Bereksperimen dengan berbagai versi petunjuk untuk menentukan mana yang menghasilkan hasil paling aman dan paling efektif.
- Lakukan iterasi dan tingkatkan kualitas petunjuk: Perbarui petunjuk berdasarkan perilaku dan masukan model yang diamati. Anda dapat menggunakan Prompt Optimizer untuk meningkatkan perintah dan petunjuk sistem.
- Pantau output model secara terus-menerus: Tinjau respons model secara rutin untuk mengidentifikasi area yang perlu disesuaikan instruksinya.
Dengan mengikuti panduan ini, Anda dapat menggunakan petunjuk sistem untuk membantu model menghasilkan output yang aman, bertanggung jawab, dan selaras dengan kebutuhan dan kebijakan spesifik Anda.
Langkah selanjutnya
- Pelajari pemantauan penyalahgunaan.
- Pelajari responsible AI lebih lanjut.
- Pelajari tata kelola data.