Configurare le impostazioni di sicurezza per l'API PaLM

Punteggio di confidenza e gravità degli attributi di sicurezza

I contenuti elaborati tramite l'API Vertex AI PaLM vengono valutati in base a un elenco di attributi di sicurezza, che includono "categorie dannose" e argomenti che possono essere considerati sensibili.

Ogni attributo di sicurezza ha un punteggio di confidenza associato compreso tra 0,0 e 1,0, arrotondato a una posizione decimale, per riflettere la probabilità dell'input o della risposta appartenente a una determinata categoria.

A quattro di questi attributi di sicurezza (molestie, incitamento all'odio, contenuti pericolosi e contenuti sessualmente espliciti) vengono assegnati un livello di sicurezza (livello di gravità) e un punteggio di gravità che va da 0, 0 a 1,0, arrotondato a una cifra decimale. Queste valutazioni e questi punteggi riflettono la gravità prevista dei contenuti che appartengono a una determinata categoria.

Esempio di risposta

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Nota: le categorie con un punteggio che arrotonda a 0,0 vengono omesse nella risposta. Questa risposta di esempio è a scopo puramente illustrativo.

Esempio di risposta quando bloccato

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Descrizioni degli attributi di sicurezza

Attributo sicurezza Description
Contenuti dispregiativi Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti.
Tossico Contenuti scurrili, irrispettosi o volgari.
Di natura sessuale Riferimenti ad atti sessuali o ad altri contenuti osceni.
Violento Descrivono scenari che mostrano atti di violenza contro un individuo o un gruppo oppure descrizioni generali di spargimenti di sangue.
Insulti Commenti offensivi, provocatori o negativi nei confronti di una persona o di un gruppo di persone.
Linguaggio volgare Linguaggio osceno o volgare come parolacce.
Morte, danni e tragedie Morti umani, tragedie, incidenti, disastri e autolesionismo.
Armi e armi da fuoco Contenuti che menzionano coltelli, pistole, armi personali e accessori come munizioni, fondine e così via.
Sicurezza pubblica Servizi e organizzazioni che forniscono soccorso e garantiscono la sicurezza pubblica.
Integrità Salute umana, ad esempio: patologie, malattie e disturbi; terapie mediche, farmaci, vaccinazioni e pratiche mediche; risorse per la guarigione, inclusi gruppi di supporto.
Credo e religione Sistemi di credenze che affrontano la possibilità di leggi ed esseri sovrannaturali; religione, fede, credenze, pratiche spirituali, chiese e luoghi di culto. Include l'astrologia e l'occulto.
Sostanze stupefacenti illegali Sostanze stupefacenti per uso ricreativo e illecite, accessori correlati e coltivazione, headshop e altro. Include l'uso terapeutico di sostanze stupefacenti tipicamente utilizzate a scopo ricreativo (ad esempio, marijuana).
Guerre e conflitti Guerre, conflitti militari e gravi conflitti fisici che coinvolgono un numero elevato di persone. Include discussioni sui servizi militari, anche se non direttamente correlati a guerre o conflitti.
Finanza Servizi finanziari per consumatori e aziende, come servizi bancari, prestiti, credito, investimenti, assicurazioni e altro ancora.
Politica Notizie e media politici; discussioni su politiche sociali, governative e pubbliche.
Legale Contenuti legati al diritto, tra cui: studi legali, informazioni legali, materiali legali primari, servizi paralegali, pubblicazioni e tecnologie legali, testimoni esperti, consulenti per controversie e altri fornitori di servizi legali.

Attributi di sicurezza con classificazioni di sicurezza

Attributo sicurezza Definizione Livelli
Incitamento all'odio Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti. Alto, Medio, Basso, Trascurabile
Molestie Commenti dannosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. Alto, Medio, Basso, Trascurabile
Contenuti sessualmente espliciti Riferimenti ad atti sessuali o ad altri contenuti osceni. Alto, Medio, Basso, Trascurabile
Contenuti pericolosi Promuovono o consentono l'accesso a beni, servizi e attività dannosi. Alto, Medio, Basso, Trascurabile

Soglie di sicurezza

Le soglie di sicurezza sono state applicate per i seguenti attributi di sicurezza:

  • Incitamento all'odio
  • Molestie
  • Contenuti sessualmente espliciti
  • Contenuti pericolosi

Google blocca le risposte del modello che superano i punteggi di gravità designati per questi attributi di sicurezza. Per richiedere la possibilità di modificare una soglia di sicurezza, contatta il team dedicato al tuo account Google Cloud.

Verificare le soglie di affidabilità e gravità

Puoi testare i filtri di sicurezza di Google e definire le soglie di confidenza adatte alla tua attività. Utilizzando queste soglie, puoi adottare misure complete per rilevare i contenuti che violano le norme di utilizzo o i Termini di servizio di Google e adottare le misure appropriate.

I punteggi di affidabilità sono solo previsioni e non devi dipendere dai punteggi per l'affidabilità o l'accuratezza. Google non è responsabile dell'interpretazione o dell'uso di questi punteggi per le decisioni aziendali.

Importante: probabilità e gravità

Ad eccezione dei quattro attributi di sicurezza con valutazioni di sicurezza, i punteggi di affidabilità dei filtri di sicurezza dell'API PaLM si basano sulla probabilità che i contenuti non siano sicuri e non sulla gravità. Questo aspetto è importante da considerare perché alcuni contenuti possono avere una bassa probabilità di non essere sicuri anche se la gravità del danno potrebbe essere comunque elevata. Ad esempio, confrontando le frasi:

  1. Il robot mi ha dato un pugno.
  2. Il robot mi ha tagliato fuori.

La frase 1 potrebbe causare una maggiore probabilità di non essere sicura, ma potresti considerare la frase 2 come una gravità maggiore in termini di violenza.

Alla luce di ciò, è importante che i clienti testino e valutino attentamente quale sia il livello appropriato di blocco necessario per supportare i loro casi d'uso chiave, riducendo al minimo i danni per gli utenti finali.

Errori di sicurezza

I codici di errore di sicurezza sono codici a tre cifre che rappresentano il motivo per cui un prompt o una risposta sono stati bloccati. La prima cifra è un prefisso che indica se il codice si applica al prompt o alla risposta, mentre le cifre rimanenti identificano il motivo per cui il prompt o la risposta sono stati bloccati. Ad esempio, un codice di errore 251 indica che la risposta è stata bloccata a causa di un problema con contenuti di incitamento all'odio nella risposta del modello.

È possibile restituire più codici di errore in un'unica risposta.

Se si verificano errori che bloccano i contenuti nella risposta del modello (prefisso = 2, ad esempio 250), modifica l'impostazione temperature nella richiesta. Ciò consente di generare un insieme diverso di risposte con meno probabilità di essere bloccate.

Prefisso codice di errore

Il prefisso del codice di errore è la prima cifra del codice di errore.

1 Il codice di errore si applica al prompt inviato al modello.
2 Il codice di errore si applica alla risposta del modello.

Motivo del codice di errore

Il motivo del codice di errore è la seconda e la terza cifra del codice.

I motivi dei codici di errore che iniziano con 3 o 4 indicano prompt o risposte bloccate perché la soglia di confidenza per una violazione di un attributo di sicurezza è stata soddisfatta.

I motivi dei codici di errore che iniziano con 5 indicano prompt o risposte in cui sono stati trovati contenuti non sicuri.

10

La risposta è stata bloccata a causa di un problema di qualità o di un'impostazione del parametro che interessa i metadati delle citazioni. Questo si applica solo alle risposte del modello. Vale a dire 210.

Il controllo delle citazioni identifica i problemi di qualità o i problemi derivanti da un'impostazione dei parametri. Prova ad aumentare i parametri temperature, top-k o top-p per generare una risposta diversa.

Per maggiori informazioni, consulta la sezione Metadati delle citazioni.

20 La lingua fornita o restituita non è supportata. Per un elenco delle lingue supportate, consulta la pagina relativa al supporto delle lingue.
30 Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. Un termine è incluso nella lista bloccata. Riformula il prompt.
31 I contenuti potrebbero includere informazioni sensibili che consentono l'identificazione personale (SPII). Riformula il prompt.
40 Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. I contenuti violano le impostazioni di SafeSearch. Riformula il prompt.
50 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti sessualmente espliciti. Riformula il prompt.
51 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti di incitamento all'odio. Riformula il prompt.
52 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti relativi a molestie. Riformula il prompt.
53 La richiesta o la risposta sono state bloccate perché potrebbero includere contenuti pericolosi. Riformula il prompt.
54 Il prompt o la risposta sono stati bloccati perché potrebbe includere contenuti tossici. Riformula il prompt.
00 Motivo sconosciuto. Riformula il prompt.

Impostazioni di sicurezza in Vertex AI Studio

Con la soglia del filtro di sicurezza regolabile, puoi regolare la probabilità di vedere risposte che potrebbero essere dannose. Le risposte del modello vengono bloccate in base alla probabilità che contengano molestie, incitamento all'odio, contenuti pericolosi o contenuti sessualmente espliciti. L'impostazione del filtro di sicurezza si trova sul lato destro del campo del prompt in Vertex AI Studio. Puoi scegliere fra tre opzioni: block most, block some e block few.

Immagine della console

Passaggi successivi