Les instructions système sont un outil puissant pour guider le comportement des grands modèles de langage. En fournissant des instructions claires et spécifiques, vous pouvez aider le modèle à produire des réponses sûres et conformes à vos règles.
Les instructions système peuvent être utilisées pour compléter ou remplacer les filtres de sécurité. Les instructions système orientent directement le comportement du modèle, tandis que les filtres de sécurité agissent comme une barrière contre les attaques ciblées, en bloquant toute sortie nuisible que le modèle pourrait produire. Nos tests montrent que, dans de nombreuses situations, les instructions système bien conçues sont souvent plus efficaces que les filtres de sécurité pour générer des sorties sécurisées.
Cette page décrit les bonnes pratiques à suivre pour créer des instructions système efficaces afin d'atteindre ces objectifs.
Exemples d'instructions système
Traduisez les règles et les contraintes spécifiques de votre organisation en instructions claires et pratiques pour le modèle. Cela peut inclure:
- Thèmes interdits: demandez explicitement au modèle d'éviter de générer des résultats qui relèvent de catégories de contenus nuisibles spécifiques, comme les contenus à caractère sexuel ou discriminatoires.
- Thèmes sensibles: indiquez explicitement au modèle les sujets à éviter ou à traiter avec précaution, comme la politique, la religion ou les sujets controversés.
- Clause de non-responsabilité: fournissez une clause de non-responsabilité au cas où le modèle rencontrerait des sujets interdits.
Exemple d'interdiction de contenu dangereux, semblable à ce que font les filtres de sécurité configurables:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
goods, services, and activities.
Exemple d'interdiction de contenu dangereux qui va au-delà de ce que font les filtres de sécurité configurables:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status, or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
accessories unless absolutely necessary and in a safe and responsible context.
If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"
Consignes relatives à la brand safety
Les instructions du système doivent être en adéquation avec l'identité et les valeurs de votre marque. Cela permet au modèle de générer des réponses qui contribuent positivement à l'image de votre marque et d'éviter tout dommage potentiel. Réfléchissez aux éléments suivants :
- Voix et ton de la marque: demandez au modèle de générer des réponses cohérentes avec le style de communication de votre marque. Il peut s'agir d'un style formel ou informel, d'un ton humoristique ou sérieux, etc.
- Valeurs de la marque: orientez les sorties du modèle pour qu'elles reflètent les valeurs fondamentales de votre marque. Par exemple, si la durabilité est une valeur clé, le modèle doit éviter de générer du contenu qui promeut des pratiques nuisibles à l'environnement.
- Audience cible: adaptez le langage et le style du modèle pour qu'ils résonnent avec votre audience cible.
- Conversations controversées ou hors sujet: fournissez des instructions claires sur la façon dont le modèle doit gérer les sujets sensibles ou controversés liés à votre marque ou à votre secteur.
Exemple pour un agent du service client d'un marchand en ligne:
You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.
You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies
You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns
If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"
Instructions de test et d'amélioration
Un avantage clé des instructions système par rapport aux filtres de sécurité est que vous pouvez les personnaliser et les améliorer. Il est essentiel de procéder comme suit:
- Effectuez des tests: testez différentes versions d'instructions pour déterminer celles qui génèrent les résultats les plus sûrs et les plus efficaces.
- Itérer et affiner les instructions: mettez à jour les instructions en fonction du comportement observé du modèle et des commentaires. Vous pouvez utiliser l'optimiseur d'invites pour améliorer les invites et les instructions système.
- Surveillez en permanence les sorties du modèle: examinez régulièrement les réponses du modèle pour identifier les zones où les instructions doivent être ajustées.
En suivant ces consignes, vous pouvez utiliser des instructions système pour aider le modèle à générer des résultats sûrs, responsables et conformes à vos besoins et règles spécifiques.
Étape suivante
- En savoir plus sur la surveillance des abus
- En savoir plus sur l'IA responsable.
- En savoir plus sur la gouvernance des données.