Configura le impostazioni di sicurezza per l'API PaLM

Filtri di sicurezza configurabili

Punteggio di confidenza e gravità dell'attributo di sicurezza

I contenuti elaborati tramite l'API Vertex AI PaLM vengono valutati in base a un elenco di attributi di sicurezza, che includono "categorie dannose" e argomenti che possono essere considerati sensibili.

A ogni attributo di sicurezza è associato un punteggio di confidenza compreso tra 0,0 e 1,0, arrotondato a una cifra decimale, per rispecchiare la probabilità che l'input o la risposta appartenga a una determinata categoria.

A quattro di questi attributi di sicurezza (molestie, incitamento all'odio, contenuti pericolosi e contenuti sessualmente espliciti) sono state assegnate una valutazione di sicurezza (livello di gravità) e un punteggio compreso tra 0, 0 e 1,0, arrotondati alla prima posizione decimale. Queste valutazioni e punteggi riflettono la gravità prevista dei contenuti appartenenti a una determinata categoria.

Esempio di risposta

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Nota: le categorie con un punteggio che viene arrotondato a 0,0 vengono omesse nella risposta. Questa risposta di esempio è solo a scopo illustrativo.

Esempio di risposta in caso di blocco

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Descrizioni degli attributi di sicurezza

Attributo di sicurezza Descrizione
Contenuti dispregiativi Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti.
Contenuti tossici Contenuti scurrili, irrispettosi o volgari.
Contenuti di natura sessuale Riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti violenti Descrive gli scenari di violenza contro un individuo o un gruppo oppure descrizioni generali di spargimenti di sangue.
Insulti Commento offensivo, provocatorio o negativo nei confronti di una persona o di un gruppo di persone.
Linguaggio volgare Linguaggio osceno o volgare come parolacce.
Morte, danni e tragedie Morti umane, tragedie, incidenti, disastri e autolesionismo.
Armi e armi da fuoco Contenuti che fanno riferimento a coltelli, pistole, armi personali e accessori, come munizioni, fondine e così via.
Sicurezza pubblica Servizi e organizzazioni che forniscono soccorso e garantiscono la sicurezza pubblica.
Salute Salute umana, tra cui: condizioni di salute, malattie e disturbi; terapie mediche, farmaci, vaccinazioni e pratiche mediche; risorse per la guarigione, inclusi gruppi di supporto.
Credo e religione Credo che riguardano la possibilità di leggi ed esseri soprannaturali; religione, fede, credo, pratiche spirituali, chiese e luoghi di culto. Include l'astrologia e l'occultismo.
Sostanze stupefacenti illegali Sostanze stupefacenti per uso ricreativo e illecite, accessori e coltivazione di droga, headshop e altro ancora. Include l'uso di medicinali di solito utilizzati a scopo ricreativo (ad esempio, la marijuana).
Guerre e conflitti Guerre, conflitti militari e grandi conflitti fisici che coinvolgono un gran numero di persone. Include la discussione sui servizi militari, anche se non direttamente correlati a una guerra o un conflitto.
Finanza Servizi finanziari per privati e aziende, come servizi bancari, prestiti, crediti, investimenti, assicurazioni e altro ancora.
Politica Notizie e media politici; discussioni su politica sociale, governativa e pubblica.
Contenuti legali Contenuti correlati alla legge, per includere: studi legali, informazioni legali, materiali legali principali, servizi paralegali, tecnologie e pubblicazioni legali, testimoni esperti, consulenti per controversie e altri fornitori di servizi legali.

Attributi di sicurezza con classificazioni di sicurezza

Attributo di sicurezza Definizione Livelli
Incitamento all'odio Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti. Alto, Medio, Basso, Trascurabile
Molestie Commenti dannosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. Alto, Medio, Basso, Trascurabile
Sessualmente esplicito Riferimenti ad atti sessuali o ad altri contenuti osceni. Alto, Medio, Basso, Trascurabile
Contenuti pericolosi Promuovono o consentono l'accesso a beni, servizi e attività dannosi. Alto, Medio, Basso, Trascurabile

Soglie di sicurezza

Le soglie di sicurezza vengono applicate per i seguenti attributi di sicurezza:

  • Incitamento all'odio
  • Molestie
  • Sessualmente esplicito
  • Contenuti pericolosi

Google blocca le risposte del modello che superano i punteggi di gravità designati per questi attributi di sicurezza. Per richiedere la possibilità di modificare una soglia di sicurezza, contatta il team dedicato al tuo account Google Cloud.

Test delle soglie di affidabilità e gravità

Puoi testare i filtri di sicurezza di Google e definire soglie di confidenza adatte alla tua attività. Utilizzando queste soglie, puoi adottare misure complete per rilevare contenuti che violano le norme di utilizzo o i termini di servizio di Google e adottare gli opportuni provvedimenti.

I punteggi di affidabilità sono solo previsioni e non devono dipendere dai punteggi per affidabilità o accuratezza. Google non è responsabile dell'interpretazione o dell'uso di questi punteggi per le decisioni aziendali.

Importante: probabilità e gravità

Ad eccezione dei quattro attributi di sicurezza con classificazioni di sicurezza, i punteggi di confidenza dei filtri dell'API PaLM si basano sulla probabilità che i contenuti siano non sicuri e non sulla gravità. Questo è importante perché alcuni contenuti possono avere una bassa probabilità di non essere sicuri, anche se la gravità del danno potrebbe essere comunque elevata. Ad esempio, confrontando le frasi:

  1. Il robot mi ha dato un pugno.
  2. Il robot mi ha colpito.

La frase 1 potrebbe aumentare le probabilità di non essere sicura, ma potresti considerare la frase 2 una gravità maggiore in termini di violenza.

Pertanto, è importante che i clienti testano e valutino attentamente quale sia il livello appropriato di blocco necessario per supportare i loro casi d'uso chiave, riducendo al minimo i danni per gli utenti finali.

Impostazioni di sicurezza in Vertex AI Studio

Con la soglia del filtro di sicurezza regolabile, puoi regolare la probabilità di vedere risposte potenzialmente dannose. Le risposte del modello vengono bloccate in base alla probabilità che contengano molestie, incitamento all'odio, contenuti pericolosi o contenuti sessualmente espliciti. Il filtro di sicurezza si trova sul lato destro del campo del prompt in Vertex AI Studio. Puoi scegliere fra tre opzioni: block most, block some e block few.

Immagine della console

Filtro citazione

Le nostre funzionalità di codice generativo sono pensate per produrre contenuti originali e non replicare in dettaglio contenuti esistenti. Abbiamo progettato i nostri sistemi in modo da limitare le possibili cause di questo problema e migliorare continuamente il loro funzionamento. Se queste funzionalità citano direttamente e in dettaglio una pagina web, citano quella pagina.

A volte gli stessi contenuti sono presenti su più pagine web e cerchiamo di indirizzarvi a una fonte molto conosciuta. Nel caso di citazioni di repository di codice, la citazione potrebbe anche fare riferimento a una licenza open source applicabile. Il rispetto di eventuali requisiti di licenza è una tua responsabilità.

Per ulteriori informazioni sui metadati del filtro per le citazioni, consulta la documentazione di riferimento dell'API Citation.

Errori di sicurezza

I codici di errore di sicurezza sono codici di tre cifre che rappresentano il motivo per cui un prompt o una risposta è stato bloccato. La prima cifra è un prefisso che indica se il codice si applica al prompt o alla risposta, mentre le cifre rimanenti identificano il motivo per cui il prompt o la risposta sono stati bloccati. Ad esempio, un codice di errore 251 indica che la risposta è stata bloccata a causa di un problema con contenuti di incitamento all'odio nella risposta del modello.

È possibile restituire più codici di errore in una singola risposta.

Se si verificano errori che bloccano i contenuti nella risposta dal modello (prefisso = 2, ad esempio 250), modifica l'impostazione temperature nella richiesta. Questo consente di generare un insieme di risposte diverso con meno possibilità di essere bloccato.

Prefisso codice di errore

Il prefisso del codice di errore è la prima cifra del codice di errore.

1 Il codice di errore si applica al prompt inviato al modello.
2 Il codice di errore si applica alla risposta del modello.

Motivo del codice di errore

Il motivo del codice di errore è costituito dalla seconda e dalla terza cifra del codice.

I motivi dei codici di errore che iniziano con 3 o 4 indicano prompt o risposte bloccate perché è stata raggiunta la soglia di confidenza per una violazione dell'attributo di sicurezza.

I motivi dei codici di errore che iniziano con 5 indicano prompt o risposte in cui sono stati trovati contenuti non sicuri.

10

La risposta è stata bloccata a causa di un problema di qualità o di un'impostazione del parametro che interessa i metadati delle citazioni. Questo vale solo per le risposte del modello. Vale a dire 210.

Il controllo delle citazioni identifica i problemi di qualità o quelli derivanti da un'impostazione dei parametri. Prova ad aumentare i parametri temperature, top-k o top-p per generare una risposta diversa.

Per maggiori informazioni, consulta la sezione Filtro citazione.

20 La lingua fornita o restituita non è supportata. Per un elenco delle lingue supportate, vedi Supporto delle lingue.
30 Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. Un termine è incluso dalla lista bloccata terminologica. Riformula il prompt.
31 I contenuti potrebbero includere informazioni sensibili che consentono l'identificazione personale (informazioni personali sensibili). Riformula il prompt.
40 Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. I contenuti violano le impostazioni di SafeSearch. Riformula il prompt.
50 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti sessualmente espliciti. Riformula il prompt.
51 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti di incitamento all'odio. Riformula il prompt.
52 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti molesti. Riformula il prompt.
53 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti pericolosi. Riformula il prompt.
54 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti tossici. Riformula il prompt.
00 Motivo sconosciuto. Riformula il prompt.

Passaggi successivi