Configura le impostazioni di sicurezza per l'API PaLM

Filtri di sicurezza configurabili

Punteggio di confidenza e gravità dell'attributo di sicurezza

I contenuti elaborati tramite l'API Vertex AI PaLM vengono valutati in base a un elenco di attributi relativi alla sicurezza, che includono "categorie dannose" e ad argomenti che possono essere considerati sensibili.

A ogni attributo sicurezza è associato un punteggio di confidenza tra 0,0 e 1,0, arrotondato a una cifra decimale, per riflettere la probabilità di l'input o la risposta appartenente a una determinata categoria.

Quattro di questi attributi relativi alla sicurezza (molestie, incitamento all'odio, contenuti pericolosi e sessualmente espliciti), vengono assegnate una valutazione di sicurezza (livello di gravità) e un un punteggio di gravità compreso tra 0,0 e 1,0, arrotondato a una cifra decimale. Questi le valutazioni e i punteggi riflettono la gravità prevista contenuti appartenenti a una determinata categoria.

Esempio di risposta

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Nota: le categorie con un punteggio che viene arrotondato a 0,0 vengono omesse nella risposta. Questa risposta di esempio è solo a scopo illustrativo.

Esempio di risposta in caso di blocco

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Descrizioni degli attributi di sicurezza

Attributo di sicurezza Descrizione
Contenuti dispregiativi Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti.
Contenuti tossici Contenuti scurrili, irrispettosi o volgari.
Contenuti di natura sessuale Riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti violenti Descrive gli scenari di violenza contro un individuo o un gruppo oppure descrizioni generali di spargimenti di sangue.
Insulti Commento offensivo, provocatorio o negativo nei confronti di una persona o di un gruppo di persone.
Linguaggio volgare Linguaggio osceno o volgare come parolacce.
Morte, danni e tragedie Morti umane, tragedie, incidenti, disastri e autolesionismo.
Armi e armi da fuoco Contenuti che fanno riferimento a coltelli, pistole, armi personali e accessori, quali come munizioni, fondine ecc.
Sicurezza pubblica Servizi e organizzazioni che forniscono soccorso e garantiscono la sicurezza pubblica.
Salute Salute umana, tra cui: patologie, malattie e disturbi; terapie mediche, farmaci, vaccinazioni e pratiche mediche; e le risorse per la guarigione, inclusi i gruppi di supporto.
Credo e religione Credo che si occupano della possibilità di leggi soprannaturali ed esseri; religione, fede, credo, pratica spirituale, chiese e luoghi di culto. Include l'astrologia e l'occultismo.
Sostanze stupefacenti illegali Sostanze stupefacenti per uso ricreativo e illecite; accessori e coltivazione di droghe, headshop e altro ancora. Include l'uso di medicinali di solito utilizzati a scopo ricreativo (ad es. marijuana).
Guerre e conflitti Guerre, conflitti militari e grandi conflitti fisici che coinvolgono il numero di persone. Include la discussione sui servizi militari, anche se non direttamente correlati a una guerra o un conflitto.
Finanza Servizi finanziari per privati e aziende, ad esempio servizi bancari, prestiti, credito, investimenti, assicurazioni e altro ancora.
Politica Notizie e media politici; discussioni su enti sociali, governativi delle norme pubbliche.
Legale Contenuti correlati alla legge, per includere: studi legali, informazioni legali, principali materiali legali, servizi paralegali, pubblicazioni legali e tecnologia, testimoni periti, consulenti per controversie e altri fornitori di servizi legali.

Attributi di sicurezza con classificazioni di sicurezza

Attributo di sicurezza Definizione Livelli
Incitamento all'odio Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti. Alto, Medio, Basso, Trascurabile
Molestie Commenti dannosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. Alto, Medio, Basso, Trascurabile
Sessualmente esplicito Riferimenti ad atti sessuali o ad altri contenuti osceni. Alto, Medio, Basso, Trascurabile
Contenuti pericolosi Promuovono o consentono l'accesso a beni, servizi e attività dannosi. Alto, Medio, Basso, Trascurabile

Soglie di sicurezza

Le soglie di sicurezza vengono applicate per i seguenti attributi di sicurezza:

  • Incitamento all'odio
  • Molestie
  • Sessualmente esplicito
  • Contenuti pericolosi

Google blocca le risposte del modello che superano i punteggi di gravità designati per questi attributi di sicurezza. Per richiedere la possibilità di modificare una soglia di sicurezza, contatta il team dedicato al tuo account Google Cloud.

Test delle soglie di affidabilità e gravità

Puoi testare i filtri di sicurezza di Google e definire soglie di affidabilità che adatta alla tua attività. Utilizzando queste soglie, puoi acquisire per rilevare contenuti che violano le norme di utilizzo o i termini di Google e a prendere le misure appropriate.

I punteggi di confidenza sono solo previsioni e non devono dipendere i punteggi di affidabilità o accuratezza. Google non è responsabile dell'interpretazione o usare questi punteggi per prendere decisioni aziendali.

Importante: probabilità e gravità

Ad eccezione dei quattro attributi relativi alla sicurezza con classificazioni di sicurezza, il parametro I punteggi di confidenza dei filtri di sicurezza dell'API PaLM si basano su probabilità che i contenuti non siano sicuri e non la gravità. Questo è importante per considerare perché alcuni contenuti possono avere una bassa probabilità di non essere sicuri, anche anche se la gravità del danno potrebbe essere ancora elevata. Ad esempio, se confrontiamo frasi:

  1. Il robot mi ha dato un pugno.
  2. Il robot mi ha colpito.

La frase 1 potrebbe aumentare le probabilità di non essere sicura, ma potresti considera la frase 2 come una gravità maggiore in termini di violenza.

Detto ciò, è importante che i clienti testino e valutino con attenzione ciò è necessario un livello di blocco adeguato per supportare i casi d'uso chiave, minimizzando i danni agli utenti finali.

Impostazioni di sicurezza in Vertex AI Studio

Con la soglia del filtro di sicurezza regolabile, puoi regolare la probabilità per visualizzare risposte potenzialmente dannose. Le risposte del modello vengono bloccate in base probabilità che contenga molestie, incitamento all'odio, contenuti pericolosi o contenuti sessualmente espliciti. L'impostazione del filtro di sicurezza si trova a destra del prompt in Vertex AI Studio. Puoi scegliere tra tre opzioni: block most, block some e block few.

Immagine della console

Filtro citazione

Le nostre funzionalità di codice generativo sono pensate per produrre contenuti originali e non replicare in dettaglio i contenuti esistenti. Abbiamo progettato i nostri sistemi in modo da limitare maggiori probabilità che ciò accada e migliorare continuamente il modo in cui questi sistemi personalizzata. Se queste funzionalità contengono direttamente e in dettaglio citazioni di una pagina web, per citare la pagina.

A volte gli stessi contenuti vengono trovati su più pagine web e tentiamo per indirizzarti a una fonte molto conosciuta. Nel caso di citazioni di repository di codice, la citazione potrebbe anche fare riferimento a una licenza open source applicabile. Conformità con eventuali requisiti di licenza è tua responsabilità.

Per ulteriori informazioni sui metadati del filtro per le citazioni, consulta la documentazione di riferimento dell'API Citation.

Errori di sicurezza

I codici di errore di sicurezza sono codici a tre cifre che rappresentano il motivo per cui una un prompt o una risposta sono stati bloccati. La prima cifra è un prefisso indica se il codice si applica al prompt o alla risposta e le cifre rimanenti indicano il motivo per cui la richiesta o la risposta è stata bloccata. Ad esempio, un codice di errore 251 indica che la risposta è stata bloccata a causa di un problema con contenuti che incitano all'odio nella risposta del modello.

È possibile restituire più codici di errore in una singola risposta.

Se si verificano errori che bloccano i contenuti nella risposta dal modello (prefisso = 2, ad esempio 250), modifica l'impostazione temperature nella tua richiesta. Ciò consente di generare un insieme diverso di risposte con meno possibilità di essere bloccati.

Prefisso codice di errore

Il prefisso del codice di errore è la prima cifra del codice di errore.

1 Il codice di errore si applica al prompt inviato al modello.
2 Il codice di errore si applica alla risposta del modello.

Motivo del codice di errore

Il motivo del codice di errore è costituito dalla seconda e dalla terza cifra del codice.

I motivi dei codici di errore che iniziano con 3 o 4 indicano prompt o risposte è bloccata perché la soglia di confidenza per una violazione dell'attributo di sicurezza era sono soddisfatte determinate condizioni.

I motivi dei codici di errore che iniziano con 5 indicano prompt o risposte in cui sono stati trovati contenuti non sicuri.

10

La risposta è stata bloccata a causa di una qualità un problema o un'impostazione di un parametro che interessa i metadati delle citazioni. Vale solo per risposte da parte del modello. Vale a dire 210.

La funzionalità di controllo delle citazioni identifica problemi di qualità o derivanti da un dell'impostazione del parametro. Prova ad aumentare temperature, top-k, oppure top-p parametri per generare una risposta diversa.

Per ulteriori informazioni, consulta la sezione Filtro citazione.

20 La lingua fornita o restituita non è supportata. Per un elenco delle lingue, vedi Lingue supportate.
30 Il prompt o la risposta è stata bloccata perché è stata ritenuta potenzialmente dannosa. Un termine è incluso dalla lista bloccata terminologica. Riformula il .
31 I contenuti potrebbero includere informazioni sensibili che consentono l'identificazione personale (informazioni personali sensibili). Riformula il prompt.
40 Il prompt o la risposta è stata bloccata perché è stata ritenuta potenzialmente dannosa. I contenuti violano le impostazioni di SafeSearch. Riformula il prompt.
50 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti sessualmente espliciti. Riformula il prompt.
51 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti che incitano all'odio. Riformula il prompt.
52 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti molesti. Riformula il prompt.
53 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti pericolosi. Riformula il prompt.
54 Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti tossici. Riformula il prompt.
00 Motivo sconosciuto. Riformula il prompt.

Passaggi successivi