Instruções do sistema para segurança

As instruções do sistema são uma ferramenta poderosa para orientar o comportamento de grandes modelos de linguagem. Ao fornecer instruções claras e específicas, você pode ajudar o modelo a gerar respostas seguras e alinhadas às suas políticas.

As instruções do sistema podem ser usadas para aumentar ou substituir os filtros de segurança. As instruções do sistema orientam diretamente o comportamento do modelo, enquanto os filtros de segurança atuam como uma barreira contra ataques motivados, bloqueando qualquer saída nociva que o modelo possa produzir. Nossos testes mostram que, em muitas situações, instruções de sistema bem elaboradas são mais eficazes do que filtros de segurança para gerar saídas seguras.

Esta página descreve as práticas recomendadas para criar instruções do sistema eficazes para alcançar esses objetivos.

Exemplos de instruções do sistema

Transfira as políticas e restrições específicas da sua organização para instruções claras e úteis para o modelo. Isso inclui o seguinte:

  • Tópicos proibidos: instrua explicitamente o modelo para evitar gerar saídas que se enquadram em categorias específicas de conteúdo nocivo, como conteúdo sexual ou discriminatório.
  • Tópicos sensíveis: instrua explicitamente o modelo sobre tópicos a serem evitados ou tratados com cautela, como política, religião ou temas polêmicos.
  • Isenção de responsabilidade: forneça a isenção de responsabilidade caso o modelo encontre tópicos proibidos.

Exemplo de como evitar conteúdo perigoso, semelhante ao que é alcançado pelos filtros de segurança configuráveis:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
  goods, services, and activities.

Exemplo de como evitar conteúdo perigoso que vai além do que é alcançado pelos filtros de segurança configuráveis:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Diretrizes de brand safety

As instruções do sistema precisam estar alinhadas à identidade e aos valores da sua marca. Isso ajuda o modelo a gerar respostas que contribuem positivamente para a imagem da sua marca e evita possíveis danos. Considere o seguinte:

  • Voz e tom da marca: instrua o modelo a gerar respostas que sejam consistentes com o estilo de comunicação da sua marca. Isso pode incluir ser formal ou informal, bem-humorado ou sério, etc.
  • Valores da marca: oriente as saídas do modelo para refletir os valores principais da sua marca. Por exemplo, se a sustentabilidade for um valor-chave, o modelo vai evitar gerar conteúdo que promova práticas prejudiciais ao meio ambiente.
  • Público-alvo: adapte o idioma e o estilo do modelo para que ele agrade seu público-alvo.
  • Conversas polêmicas ou fora do assunto: dê orientações claras sobre como o modelo deve lidar com temas sensíveis ou polêmicos relacionados à sua marca ou setor.

Exemplo de agente de atendimento ao cliente de um varejista on-line:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Testar e refinar instruções

Uma das principais vantagens das instruções do sistema em relação aos filtros de segurança é que você pode personalizar e melhorar as instruções do sistema. É fundamental fazer o seguinte:

  • Realizar testes: experimente diferentes versões de instruções para determinar quais delas geram os resultados mais seguros e eficazes.
  • Iterar e refinar instruções: atualize as instruções com base no comportamento observado do modelo e no feedback. Use o Prompt Optimizer para melhorar instruções do sistema e solicitações.
  • Monitorar continuamente as saídas do modelo: revise regularmente as respostas do modelo para identificar áreas em que as instruções precisam ser ajustadas.

Ao seguir essas diretrizes, você pode usar instruções do sistema para ajudar o modelo a gerar resultados seguros, responsáveis e alinhados às suas necessidades e políticas específicas.

A seguir