Se usó la API de Cloud Translation para traducir esta página.

Instrucciones del sistema para la seguridad

Las instrucciones del sistema son una herramienta poderosa para guiar el comportamiento de los modelos de lenguaje grandes. Si proporcionas instrucciones claras y específicas, puedes ayudar al modelo a generar respuestas seguras y alineadas con tus políticas.

Las instrucciones del sistema se pueden usar para complementar o reemplazar los filtros de seguridad. Las instrucciones del sistema dirigen directamente el comportamiento del modelo, mientras que los filtros de seguridad actúan como una barrera contra ataques motivados, ya que bloquean cualquier resultado dañino que pueda producir el modelo. Nuestras pruebas demuestran que, en muchas situaciones, las instrucciones del sistema bien elaboradas suelen ser más eficaces que los filtros de seguridad para generar resultados seguros.

En esta página, se describen las prácticas recomendadas para crear instrucciones del sistema eficaces y alcanzar estos objetivos.

Ejemplo de instrucciones del sistema

Traduce las políticas y restricciones específicas de tu organización en instrucciones claras y prácticas para el modelo. Esto puede incluir, por ejemplo:

Temas prohibidos: Se le indica explícitamente al modelo que evite generar resultados que se incluyan en categorías específicas de contenido dañino, como contenido sexual o discriminatorio.
Temas sensibles: Indica explícitamente al modelo los temas que debe evitar o tratar con precaución, como política, religión o temas controversiales.
Renuncia de responsabilidad: Proporciona el texto de renuncia de responsabilidad en caso de que el modelo encuentre temas prohibidos.

Ejemplo para evitar el contenido no seguro:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Lineamientos de seguridad de la marca

Las instrucciones del sistema deben alinearse con la identidad y los valores de tu marca. Esto ayuda al modelo a generar respuestas que contribuyen de forma positiva a la imagen de tu marca y a evitar cualquier daño potencial. Ten en cuenta lo siguiente:

Voz y tono de la marca: Indica al modelo que genere respuestas coherentes con el estilo de comunicación de tu marca. Esto puede incluir ser formal o informal, humorístico o serio, etcétera.
Valores de la marca: Guían los resultados del modelo para que reflejen los valores fundamentales de tu marca. Por ejemplo, si la sustentabilidad es un valor clave, el modelo debe evitar generar contenido que promueva prácticas dañinas para el medio ambiente.
Público objetivo: Adapta el lenguaje y el estilo del modelo para que resuenen en tu público objetivo.
Conversaciones controversiales o fuera de tema: Proporciona orientación clara sobre cómo el modelo debe abordar temas sensibles o controversiales relacionados con tu marca o industria.

Ejemplo para un agente de atención al cliente de un minorista en línea:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Instrucciones para probar y definir mejor la estrategia

Una ventaja clave de las instrucciones del sistema sobre los filtros de seguridad es que puedes personalizarlas y mejorarlas. Es fundamental que hagas lo siguiente:

Realiza pruebas: Experimenta con diferentes versiones de instrucciones para determinar cuáles producen los resultados más seguros y eficaces.
Itera y define mejor las instrucciones: Actualiza las instrucciones en función del comportamiento observado del modelo y los comentarios. Puedes usar Prompt Optimizer para mejorar las instrucciones del sistema y las instrucciones.
Supervisa continuamente los resultados del modelo: Revisa periódicamente las respuestas del modelo para identificar las áreas en las que se deben ajustar las instrucciones.

Si sigues estos lineamientos, puedes usar instrucciones del sistema para ayudar al modelo a generar resultados seguros, responsables y alineados con tus necesidades y políticas específicas.

¿Qué sigue?

Obtén más información sobre la supervisión del abuso.
Obtén más información sobre la IA responsable.
Obtén información sobre la administración de datos.