Istruzioni di sistema per la sicurezza

Le istruzioni di sistema sono un potente strumento per guidare il comportamento dei modelli linguistici di grandi dimensioni. Fornendo istruzioni chiare e specifiche, puoi aiutare il modello a produrre risposte sicure e in linea con le tue norme.

Le istruzioni di sistema possono essere utilizzate per integrare o sostituire i filtri di sicurezza. Le istruzioni di sistema indirizzano direttamente il comportamento del modello, mentre i filtri di sicurezza fungono da barriera contro gli attacchi motivati, bloccando eventuali output dannosi che il modello potrebbe produrre. I nostri test dimostrano che in molte situazioni le istruzioni di sistema ben strutturate sono spesso più efficaci dei filtri di sicurezza per generare output sicuri.

Questa pagina illustra le best practice per creare istruzioni di sistema efficaci per ottenere questi obiettivi.

Istruzioni di sistema di esempio

Traduci i criteri e i vincoli specifici della tua organizzazione in istruzioni chiare e attuabili per il modello. ad esempio:

  • Argomenti vietati: indica esplicitamente al modello di evitare di generare output che rientrano in specifiche categorie di contenuti dannosi, come contenuti di natura sessuale o discriminatori.
  • Argomenti sensibili: indica esplicitamente al modello gli argomenti da evitare o da trattare con cautela, come politica, religione o argomenti controversi.
  • Disclaimer: fornisci il testo del disclaimer nel caso in cui il modello riscontri argomenti vietati.

Esempio di prevenzione di contenuti non sicuri, simile a quanto ottenuto con i filtri di sicurezza configurabili:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote or enable access to harmful
  goods, services, and activities.

Esempio di prevenzione di contenuti non sicuri che va oltre ciò che viene ottenuto con i filtri di sicurezza configurabili:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not mention firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Linee guida per la sicurezza del brand

Le istruzioni di sistema devono essere in linea con l'identità e i valori del tuo brand. In questo modo il modello genera risposte che contribuiscono positivamente all'immagine del tuo brand ed evitano potenziali danni. Considera quanto segue:

  • Voce e tono del brand: indica al modello di generare risposte coerenti con lo stile di comunicazione del tuo brand. ad esempio essere formale o informale, umoristico o serio e così via.
  • Valori del brand: indica al modello di produrre output che riflettano i valori fondamentali del tuo brand. Ad esempio, se la sostenibilità è un valore chiave, il modello deve evitare di generare contenuti che promuovano pratiche dannose per l'ambiente.
  • Pubblico di destinazione: personalizza il linguaggio e lo stile del modello in base al tuo pubblico di destinazione.
  • Conversazioni controverse o fuori tema: fornisci indicazioni chiare su come il modello deve gestire argomenti sensibili o controversi relativi al tuo brand o al tuo settore.

Esempio per un agente dei clienti di un rivenditore online:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Istruzioni per testare e perfezionare

Un vantaggio chiave delle istruzioni di sistema rispetto ai filtri di sicurezza è che puoi personalizzare e migliorare le istruzioni di sistema. È fondamentale svolgere quanto segue:

  • Esegui test: prova versioni diverse delle istruzioni per determinare quali danno i risultati più sicuri ed efficaci.
  • Esegui l'iterazione e perfeziona le istruzioni: aggiorna le istruzioni in base al comportamento e al feedback del modello osservato. Puoi utilizzare Ottimizzatore di prompt per migliorare i prompt e le istruzioni di sistema.
  • Monitora continuamente gli output del modello: esamina regolarmente le risposte del modello per identificare le aree in cui è necessario modificare le istruzioni.

Seguendo queste linee guida, puoi utilizzare le istruzioni di sistema per aiutare il modello a generare output sicuri, responsabili e in linea con le tue esigenze e i tuoi criteri specifici.

Passaggi successivi