Questa pagina è stata tradotta dall'API Cloud Translation.

Configura le impostazioni di sicurezza per l'API PaLM

Filtri di sicurezza configurabili

Punteggio di attendibilità e gravità dell'attributo di sicurezza

I contenuti elaborati tramite l'API Vertex AI PaLM vengono valutati in base a un elenco di attributi relativi alla sicurezza, che includono "categorie dannose" e ad argomenti che possono essere considerati sensibili.

A ogni attributo di sicurezza viene assegnato un punteggio di affidabilità tra 0.0 e 1.0, arrotondato a un decimale, che riflette la probabilità che l'input o la risposta appartengano a una determinata categoria.

Quattro di questi attributi relativi alla sicurezza (molestie, incitamento all'odio, contenuti pericolosi e sessualmente espliciti), vengono assegnate una valutazione di sicurezza (livello di gravità) e un un punteggio di gravità compreso tra 0,0 e 1,0, arrotondato a una cifra decimale. Queste classificazioni e questi punteggi riflettono la gravità prevista dei contenuti appartenenti a una determinata categoria.

Esempio di risposta

{
  "predictions": [
    {
      "safetyAttributes": {
        "categories": [
          "Derogatory",
          "Toxic",
          "Violent",
          "Sexual",
          "Insult",
          "Profanity",
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Public Safety",
          "Health",
          "Religion & Belief",
          "Illicit Drugs",
          "War & Conflict",
          "Politics",
          "Finance",
          "Legal"
        ],
        "scores": [
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1,
          0.1
        ],
       "safetyRatings": [
          {"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
          {"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
          {"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
          {"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
       ],
        "blocked": false
      },
      "content": "<>"
    }
  ]
}

Nota: le categorie con un punteggio arrotondato a 0,0 vengono omesse nella risposta. Questa risposta di esempio è solo a scopo illustrativo.

Esempio di risposta in caso di blocco

{
  "predictions": [
    {
      "safetyAttributes": {
        "blocked": true,
        "errors": [
          150,
          152,
          250
        ]
      },
      "content": ""
    }
  ]
}

Descrizioni degli attributi di sicurezza

Attributo sicurezza	Descrizione
Contenuti dispregiativi	Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti.
Contenuti tossici	Contenuti scortesi, irrispettosi o volgari.
Contenuti di natura sessuale	Riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti violenti	Descrive scenari che raffigurano violenza contro un individuo o un gruppo oppure descrizioni generali di scene di violenza.
Insulti	Commento offensivo, provocatorio o negativo nei confronti di una persona o di un gruppo di persone.
Linguaggio volgare	Linguaggio osceno o volgare, come parolacce.
Morte, danni e tragedie	Morti umane, tragedie, incidenti, disastri e autolesionismo.
Armi e armi da fuoco	Contenuti che fanno riferimento a coltelli, pistole, armi personali e accessori, quali come munizioni, fondine ecc.
Sicurezza pubblica	Servizi e organizzazioni che forniscono soccorso e garantiscono la sicurezza pubblica.
Salute	Salute umana, tra cui: patologie, malattie e disturbi; terapie mediche, farmaci, vaccinazioni e pratiche mediche; e le risorse per la guarigione, inclusi i gruppi di supporto.
Credo e religione	Credo che si occupano della possibilità di leggi soprannaturali ed esseri; religione, fede, credo, pratica spirituale, chiese e luoghi di culto. Include l'astrologia e l'occultismo.
Sostanze stupefacenti illegali	Sostanze stupefacenti per uso ricreativo e illegali; accessori e coltivazione di sostanze stupefacenti, headshop e altro ancora. Include l'uso di medicinali di solito utilizzati a scopo ricreativo (ad es. marijuana).
Guerre e conflitti	Guerre, conflitti militari e grandi conflitti fisici che coinvolgono il numero di persone. Include la discussione sui servizi militari, anche se non direttamente correlati a una guerra o un conflitto.
Finanza	Servizi finanziari per consumatori e aziende, come servizi bancari, prestiti, credito, investimenti, assicurazioni e altro ancora.
Politica	Notizie e media politici; discussioni su enti sociali, governativi delle norme pubbliche.
Legale	Contenuti correlati alla legge, per includere: studi legali, informazioni legali, principali materiali legali, servizi paralegali, pubblicazioni legali e tecnologia, testimoni periti, consulenti per controversie e altri fornitori di servizi legali.

Attributi di sicurezza con valutazioni di sicurezza

Attributo di sicurezza	Definizione	Livelli
Incitamento all'odio	Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti.	Alta, Media, Bassa, Negligible
Molestie	Commenti dannosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo.	Alto, Medio, Basso, Trascurabile
Sessualmente esplicito	Riferimenti ad atti sessuali o ad altri contenuti osceni.	Alto, Medio, Basso, Trascurabile
Contenuti pericolosi	Promuove o consente l'accesso a beni, servizi e attività dannosi.	Alta, Media, Bassa, Negligible

Soglie di sicurezza

Le soglie di sicurezza vengono applicate per i seguenti attributi di sicurezza:

Incitamento all'odio
Molestie
Sessualmente esplicito
Contenuti pericolosi

Google blocca le risposte del modello che superano i punteggi di gravità designati per questi attributi di sicurezza. Per richiedere la possibilità di modificare una soglia di sicurezza, contatta il team dedicato al tuo account Google Cloud.

Testare le soglie di confidenza e gravità

Puoi testare i filtri di sicurezza di Google e definire soglie di affidabilità adatte per la tua attività. Utilizzando queste soglie, puoi acquisire per rilevare contenuti che violano le norme di utilizzo o i termini di Google e a prendere le misure appropriate.

I punteggi di confidenza sono solo previsioni e non devono dipendere i punteggi di affidabilità o accuratezza. Google non è responsabile dell'interpretazione o usare questi punteggi per prendere decisioni aziendali.

Importante: probabilità e gravità

Ad eccezione dei quattro attributi di sicurezza con valutazioni di sicurezza, i punteggi di confidenza dei filtri di sicurezza dell'API PaLM si basano sulla probabilità che i contenuti non siano sicuri e non sulla gravità. Questo è importante da considerare perché alcuni contenuti possono avere una bassa probabilità di essere non sicuri, anche se la gravità del danno potrebbe essere comunque alta. Ad esempio, se confrontiamo frasi:

Il robot mi ha dato un pugno.
Il robot mi ha colpito.

La frase 1 potrebbe avere una maggiore probabilità di non essere sicura, ma potresti considerare la frase 2 di maggiore gravità in termini di violenza.

Pertanto, è importante che i clienti testino attentamente e valutino il livello di blocco appropriato per supportare i loro casi d'uso principali, minimizzando al contempo i danni agli utenti finali.

Impostazioni di sicurezza in Vertex AI Studio

Con la soglia del filtro di sicurezza regolabile, puoi regolare la probabilità per visualizzare risposte potenzialmente dannose. Le risposte del modello vengono bloccate in base probabilità che contenga molestie, incitamento all'odio, contenuti pericolosi o contenuti sessualmente espliciti. L'impostazione del filtro di sicurezza si trova sul lato destro del campo della richiesta in Vertex AI Studio. Puoi scegliere tra tre opzioni: block most, block some e block few.

Immagine della console

Filtro citazioni

Le nostre funzionalità di codice generativo sono pensate per produrre contenuti originali e non replicare in dettaglio i contenuti esistenti. Abbiamo progettato i nostri sistemi in modo da limitare maggiori probabilità che ciò accada e migliorare continuamente il modo in cui questi sistemi personalizzata. Se queste funzionalità contengono direttamente e in dettaglio citazioni di una pagina web, per citare la pagina.

A volte gli stessi contenuti vengono trovati su più pagine web e tentiamo per indirizzarti a una fonte molto conosciuta. Nel caso di citazioni di repository di codice, la citazione potrebbe anche fare riferimento a una licenza open source applicabile. Il rispetto di eventuali requisiti di licenza è una tua responsabilità.

Per ulteriori informazioni sui metadati del filtro per le citazioni, consulta la documentazione di riferimento dell'API Citation.

Errori di sicurezza

I codici di errore di sicurezza sono codici a tre cifre che rappresentano il motivo per cui un un prompt o una risposta sono stati bloccati. La prima cifra è un prefisso indica se il codice si applica al prompt o alla risposta e le cifre rimanenti indicano il motivo per cui la richiesta o la risposta è stata bloccata. Ad esempio, un codice di errore 251 indica che la risposta è stata bloccata a causa di un problema con contenuti di incitamento all'odio nella risposta del modello.

In una singola risposta possono essere restituiti più codici di errore.

Se si verificano errori che bloccano i contenuti nella risposta dal modello (prefisso = 2, ad esempio 250), modifica l'impostazione temperature nella tua richiesta. Ciò consente di generare un insieme diverso di risposte con meno possibilità di essere bloccati.

Prefisso del codice di errore

Il prefisso del codice di errore è la prima cifra del codice di errore.

1	Il codice di errore si applica al prompt inviato al modello.
2	Il codice di errore si applica alla risposta del modello.

Motivo del codice di errore

Il motivo del codice di errore è costituito dalla seconda e dalla terza cifra del codice di errore.

I motivi dei codici di errore che iniziano con 3 o 4 indicano prompt o risposte è bloccata perché la soglia di confidenza per una violazione dell'attributo di sicurezza era sono soddisfatte determinate condizioni.

I motivi dei codici di errore che iniziano con 5 indicano prompt o risposte in cui sono stati trovati contenuti non sicuri.

10	La risposta è stata bloccata a causa di un problema di qualità o di un'impostazione del parametro che influisce sui metadati della citazione. Vale solo per risposte da parte del modello. ovvero `210`. La funzionalità di controllo delle citazioni identifica problemi di qualità o derivanti da un dell'impostazione del parametro. Prova ad aumentare `temperature`, `top-k`, oppure `top-p` parametri per generare una risposta diversa. Per ulteriori informazioni, consulta la sezione Filtro citazioni.
20	La lingua fornita o restituita non è supportata. Per un elenco delle lingue, vedi Lingue supportate.
30	Il prompt o la risposta è stata bloccata perché è stata ritenuta potenzialmente dannosa. Un termine è incluso dalla lista bloccata terminologica. Riformula il richiesta.
31	I contenuti potrebbero includere informazioni sensibili che consentono l'identificazione personale (informazioni personali sensibili). Riformula il prompt.
40	Il prompt o la risposta è stata bloccata perché è stata ritenuta potenzialmente dannosa. I contenuti violano le impostazioni di SafeSearch. Riformula il prompt.
50	Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti sessualmente espliciti. Riformula il prompt.
51	Il prompt o la risposta è stato bloccato perché potrebbe contenere contenuti di incitamento all'odio. Riformula il prompt.
52	Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti molesti. Riformula il prompt.
53	Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti pericolosi. Riformula il prompt.
54	Il prompt o la risposta è stato bloccato perché potrebbe contenere contenuti dannosi. Riformula il prompt.
00	Motivo sconosciuto. Riformula il prompt.

Passaggi successivi

Scopri di più sull'IA responsabile.
Scopri di più sulla governance dei dati.