As instruções do sistema são uma ferramenta poderosa para orientar o comportamento dos modelos de linguagem grandes. Ao fornecer instruções claras e específicas, pode ajudar o modelo a gerar respostas seguras e alinhadas com as suas políticas.
As instruções do sistema podem ser usadas para aumentar ou substituir os filtros de segurança. As instruções do sistema orientam diretamente o comportamento do modelo, enquanto os filtros de segurança atuam como uma barreira contra ataques motivados, bloqueando quaisquer resultados prejudiciais que o modelo possa produzir. Os nossos testes mostram que, em muitas situações, as instruções do sistema bem elaboradas são frequentemente mais eficazes do que os filtros de segurança na geração de resultados seguros.
Esta página descreve as práticas recomendadas para criar instruções do sistema eficazes para alcançar estes objetivos.
Exemplo de instruções do sistema
Traduzir as políticas e as restrições específicas da sua organização em instruções claras e acionáveis para o modelo. Isto pode incluir:
- Tópicos proibidos: instruir explicitamente o modelo para evitar a geração de resultados que se enquadrem em categorias de conteúdo prejudicial específicas, como conteúdo sexual ou discriminatório.
- Tópicos sensíveis: instruir explicitamente o modelo sobre tópicos a evitar ou tratar com cautela, como política, religião ou tópicos controversos.
- Exclusão de responsabilidade: forneça uma exclusão de responsabilidade caso o modelo encontre tópicos proibidos.
Exemplo de prevenção de conteúdo inseguro:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status, or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
accessories unless absolutely necessary and in a safe and responsible context.
If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"
Diretrizes de segurança da marca
As instruções do sistema devem estar alinhadas com a identidade e os valores da sua marca. Isto ajuda o modelo a gerar respostas que contribuem positivamente para a imagem da sua marca e a evitar potenciais danos. Considere o seguinte:
- Voz e tom da marca: dê instruções ao modelo para gerar respostas que sejam consistentes com o estilo de comunicação da sua marca. Isto pode incluir ser formal ou informal, humorístico ou sério, etc.
- Valores da marca: oriente os resultados do modelo para refletirem os valores essenciais da sua marca. Por exemplo, se a sustentabilidade for um valor fundamental, o modelo deve evitar gerar conteúdo que promova práticas prejudiciais para o ambiente.
- Público-alvo: personalize a linguagem e o estilo do modelo para ter impacto junto do seu público-alvo.
- Conversas controversas ou fora do tópico: forneça orientações claras sobre como o modelo deve processar tópicos sensíveis ou controversos relacionados com a sua marca ou setor.
Exemplo para um agente de apoio ao cliente de um retalhista online:
You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.
You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies
You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns
If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"
Teste e refine as instruções
Uma vantagem fundamental das instruções do sistema em relação aos filtros de segurança é que pode personalizar e melhorar as instruções do sistema. É fundamental fazer o seguinte:
- Realize testes: experimente diferentes versões de instruções para determinar quais geram os resultados mais seguros e eficazes.
- Iterar e refinar instruções: atualize as instruções com base no comportamento e no feedback observados do modelo. Pode usar o Otimizador de comandos para melhorar os comandos e as instruções do sistema.
- Monitorize continuamente os resultados do modelo: reveja regularmente as respostas do modelo para identificar áreas onde as instruções precisam de ser ajustadas.
Seguindo estas diretrizes, pode usar instruções do sistema para ajudar o modelo a gerar resultados seguros, responsáveis e alinhados com as suas necessidades e políticas específicas.
O que se segue?
- Saiba mais sobre a monitorização de abusos.
- Saiba mais sobre a IA responsável.
- Saiba mais sobre a governança de dados.