Las instrucciones del sistema son una herramienta poderosa para guiar el comportamiento de los modelos de lenguaje grandes. Si proporcionas instrucciones claras y específicas, puedes ayudar al modelo a generar respuestas seguras y alineadas con tus políticas.
Las instrucciones del sistema se pueden usar para agregar o reemplazar los filtros de seguridad. Las instrucciones del sistema dirigen directamente el comportamiento del modelo, mientras que los filtros de seguridad actúan como una barrera contra los ataques motivados y bloquean cualquier resultado dañino que pueda producir el modelo. Nuestras pruebas muestran que, en muchas situaciones, las instrucciones del sistema bien elaboradas suelen ser más eficaces que los filtros de seguridad para generar resultados seguros.
En esta página, se describen las prácticas recomendadas para crear instrucciones del sistema eficaces para lograr estos objetivos.
Instrucciones del sistema de muestra
Traduce las políticas y restricciones específicas de tu organización en instrucciones claras y prácticas para el modelo. Esto puede incluir, por ejemplo:
- Temas prohibidos: Instruye explícitamente al modelo para que evite generar resultados que se incluyan en categorías específicas de contenido dañino, como contenido sexual o discriminatorio.
- Temas sensibles: Instruye al modelo de forma explícita sobre los temas que debe evitar o tratar con precaución, como política, religión o temas polémicos.
- Renuncia de responsabilidad: Proporciona el texto de la renuncia de responsabilidad en caso de que el modelo encuentre temas prohibidos.
Ejemplo para evitar contenido inseguro:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status, or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
accessories unless absolutely necessary and in a safe and responsible context.
If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"
Lineamientos de seguridad de la marca
Las instrucciones del sistema deben alinearse con la identidad y los valores de tu marca. Esto ayuda al modelo a generar respuestas que contribuyan de manera positiva a la imagen de tu marca y eviten cualquier daño potencial. Ten en cuenta lo siguiente:
- Tono y voz de la marca: Indica al modelo que genere respuestas que sean coherentes con el estilo de comunicación de tu marca. Esto puede incluir ser formal o informal, humorístico o serio, etcétera.
- Valores de la marca: Orienta los resultados del modelo para que reflejen los valores principales de tu marca. Por ejemplo, si la sostenibilidad es un valor clave, el modelo debe evitar generar contenido que promueva prácticas dañinas para el medio ambiente.
- Público objetivo: Adapta el lenguaje y el estilo del modelo para que resuenen en tu público objetivo.
- Conversaciones polémicas o fuera de tema: Proporciona instrucciones claras sobre cómo el modelo debe manejar temas sensibles o polémicos relacionados con tu marca o industria.
Ejemplo de un agente de atención al cliente de un minorista en línea:
You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.
You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies
You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns
If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"
Instrucciones para probar y definir mejor
Una ventaja clave de las instrucciones del sistema sobre los filtros de seguridad es que puedes personalizarlas y mejorarlas. Es fundamental hacer lo siguiente:
- Realiza pruebas: Experimenta con diferentes versiones de instrucciones para determinar cuáles proporcionan los resultados más seguros y eficaces.
- Itera y define mejor las instrucciones: Actualiza las instrucciones en función del comportamiento observado del modelo y los comentarios. Puedes usar Prompt Optimizer para mejorar las instrucciones del sistema y las instrucciones.
- Supervisa de forma continua los resultados del modelo: Revisa periódicamente las respuestas del modelo para identificar las áreas en las que se deben ajustar las instrucciones.
Si sigues estos lineamientos, puedes usar instrucciones del sistema para ayudar al modelo a generar resultados que sean seguros, responsables y alineados con tus necesidades y políticas específicas.
¿Qué sigue?
- Obtén información sobre la supervisión de abusos.
- Obtén más información sobre la IA responsable.
- Obtén información sobre la administración de datos.