Sicherheitshinweise für das System

Systemanweisungen sind ein leistungsstarkes Tool, um das Verhalten von Large Language Models zu steuern. Wenn Sie klare und spezifische Anweisungen geben, kann das Modell Antworten ausgeben, die sicher sind und Ihren Richtlinien entsprechen.

Systemanweisungen können verwendet werden, um Sicherheitsfilter zu ergänzen oder zu ersetzen. Systemanweisungen steuern das Verhalten des Modells direkt, während Sicherheitsfilter als Schutz vor motivierten Angriffen dienen und alle schädlichen Ausgaben blockieren, die das Modell möglicherweise generiert. Unsere Tests haben gezeigt, dass in vielen Situationen gut formulierte Systemanweisungen oft effektiver sind als Sicherheitsfilter, um sichere Ergebnisse zu generieren.

Auf dieser Seite werden Best Practices für die Erstellung effektiver Systemanleitungen beschrieben, mit denen diese Ziele erreicht werden können.

Beispiel für eine Systemanweisung

Übersetzen Sie die spezifischen Richtlinien und Einschränkungen Ihrer Organisation in klare, umsetzbare Anweisungen für das Modell. Beispiele hierfür sind:

  • Verbotene Themen: Sie können das Modell ausdrücklich anweisen, keine Ausgaben zu generieren, die in bestimmte Kategorien schädlicher Inhalte fallen, z. B. sexuelle oder diskriminierende Inhalte.
  • Sensible Themen: Sie können dem Modell explizit Themen angeben, die es vermeiden oder mit Vorsicht behandeln soll, z. B. Politik, Religion oder kontroverse Themen.
  • Haftungsausschluss: Geben Sie einen Haftungsausschluss an, falls das Modell auf verbotene Themen stößt.

Beispiel für die Verhinderung unsicherer Inhalte, ähnlich wie bei konfigurierbaren Sicherheitsfiltern:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
  goods, services, and activities.

Beispiel für die Verhinderung von unsicheren Inhalten, die über die Möglichkeiten von konfigurierbaren Sicherheitsfiltern hinausgehen:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Richtlinien zur Markensicherheit

Die Systemanweisungen sollten der Identität und den Werten Ihrer Marke entsprechen. So kann das Modell Antworten ausgeben, die zu Ihrem positiven Markenimage beitragen und potenzielle Schäden vermeiden. Beachten Sie dabei Folgendes:

  • Markenidentität und -ton: Weisen Sie das Modell an, Antworten zu generieren, die dem Kommunikationsstil Ihrer Marke entsprechen. Das kann beispielsweise formal oder informell, humorvoll oder ernst sein.
  • Markenwerte: Legen Sie fest, dass die Ergebnisse des Modells die Kernwerte Ihrer Marke widerspiegeln sollen. Wenn Nachhaltigkeit beispielsweise ein wichtiger Wert ist, sollte das Modell Inhalte vermeiden, die umweltschädliche Praktiken fördern.
  • Zielgruppe: Passen Sie die Sprache und den Stil des Modells an Ihre Zielgruppe an.
  • Kontroverse oder nicht themenbezogene Unterhaltungen: Geben Sie klare Anweisungen, wie das Modell mit sensiblen oder kontroversen Themen im Zusammenhang mit Ihrer Marke oder Branche umgehen soll.

Beispiel für einen Kundenservicemitarbeiter für einen Onlinehändler:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Anleitung zum Testen und Optimieren

Ein wichtiger Vorteil von Systemanweisungen gegenüber Sicherheitsfiltern ist, dass Sie Systemanweisungen anpassen und verbessern können. Folgendes ist wichtig:

  • Tests durchführen: Probieren Sie verschiedene Versionen der Anleitung aus, um herauszufinden, mit welcher Sie die sichersten und effektivsten Ergebnisse erzielen.
  • Anweisungen iterieren und optimieren: Aktualisieren Sie die Anweisungen basierend auf dem beobachteten Modellverhalten und Feedback. Mit dem Prompt-Optimierer können Sie Prompts und Systemanweisungen verbessern.
  • Modellausgaben kontinuierlich überwachen: Prüfen Sie regelmäßig die Antworten des Modells, um Bereiche zu identifizieren, in denen die Anweisungen angepasst werden müssen.

Wenn Sie diese Richtlinien einhalten, können Sie mithilfe von Systemanweisungen das Modell dabei unterstützen, Ergebnisse zu generieren, die sicher, verantwortungsvoll und Ihren spezifischen Anforderungen und Richtlinien entsprechen.

Nächste Schritte