Cette page a été traduite par l'API Cloud Translation.

Instructions système pour la sécurité

Les instructions système sont un outil puissant pour guider le comportement des grands modèles de langage. En fournissant des instructions claires et spécifiques, vous pouvez aider le modèle à générer des réponses sûres et conformes à vos règles.

Les instructions système peuvent être utilisées pour compléter ou remplacer les filtres de sécurité. Les instructions système orientent directement le comportement du modèle, tandis que les filtres de sécurité agissent comme une barrière contre les attaques motivées, en bloquant toute sortie nuisible que le modèle pourrait produire. Nos tests montrent que, dans de nombreuses situations, des instructions système bien conçues sont souvent plus efficaces que les filtres de sécurité pour générer des résultats sûrs.

Cette page décrit les bonnes pratiques à suivre pour rédiger des instructions système efficaces afin d'atteindre ces objectifs.

Exemples d'instructions système

Traduisez les règles et contraintes spécifiques de votre organisation en instructions claires et pratiques pour le modèle. Voici quelques exemples :

Thèmes interdits : demandez explicitement au modèle d'éviter de générer des résultats qui appartiennent à des catégories de contenus nuisibles spécifiques, comme les contenus à caractère sexuel ou discriminatoires.
Sujets sensibles : indiquez explicitement au modèle les sujets à éviter ou à traiter avec prudence, comme la politique, la religion ou les sujets controversés.
Avis de non-responsabilité : fournissez un avis de non-responsabilité au cas où le modèle rencontre des sujets interdits.

Exemple pour éviter les contenus dangereux :

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Consignes relatives à la brand safety

Les instructions système doivent être conformes à l'identité et aux valeurs de votre marque. Cela permet au modèle de générer des réponses qui contribuent positivement à l'image de votre marque et d'éviter tout dommage potentiel. Réfléchissez aux éléments suivants :

Voix et ton de la marque : demandez au modèle de générer des réponses cohérentes avec le style de communication de votre marque. (par exemple, formel ou informel, humoristique ou sérieux, etc.).
Valeurs de la marque : guidez les sorties du modèle pour qu'elles reflètent les valeurs fondamentales de votre marque. Par exemple, si la durabilité est une valeur clé, le modèle doit éviter de générer du contenu qui promeut des pratiques nuisibles pour l'environnement.
Audience cible : adaptez le langage et le style du modèle pour qu'ils résonnent auprès de votre audience cible.
Conversations controversées ou hors sujet : fournissez des instructions claires sur la façon dont le modèle doit traiter les sujets sensibles ou controversés liés à votre marque ou à votre secteur.

Exemple pour un agent du service client d'un marchand en ligne :

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Instructions pour tester et améliorer

L'un des principaux avantages des instructions système par rapport aux filtres de sécurité est que vous pouvez les personnaliser et les améliorer. Il est essentiel de procéder comme suit :

Effectuez des tests : testez différentes versions d'instructions pour déterminer celles qui donnent les résultats les plus sûrs et les plus efficaces.
Itérer et affiner les instructions : mettez à jour les instructions en fonction du comportement observé du modèle et des commentaires. Vous pouvez utiliser l'optimiseur de requêtes pour améliorer les requêtes et les instructions système.
Surveillez en permanence les sorties du modèle : examinez régulièrement les réponses du modèle pour identifier les points où les instructions doivent être ajustées.

En suivant ces consignes, vous pouvez utiliser des instructions système pour aider le modèle à générer des résultats sûrs, responsables et adaptés à vos besoins et règles spécifiques.

Étapes suivantes

En savoir plus sur la surveillance des utilisations abusives
En savoir plus sur l'IA responsable
En savoir plus sur la gouvernance des données