Filtri di sicurezza configurabili
Punteggio di confidenza e gravità dell'attributo di sicurezza
I contenuti elaborati tramite l'API Vertex AI PaLM vengono valutati in base a un elenco di attributi di sicurezza, che includono "categorie dannose" e argomenti che possono essere considerati sensibili.
A ogni attributo di sicurezza è associato un punteggio di confidenza compreso tra 0,0 e 1,0, arrotondato a una cifra decimale, per rispecchiare la probabilità che l'input o la risposta appartenga a una determinata categoria.
A quattro di questi attributi di sicurezza (molestie, incitamento all'odio, contenuti pericolosi e contenuti sessualmente espliciti) sono state assegnate una valutazione di sicurezza (livello di gravità) e un punteggio compreso tra 0, 0 e 1,0, arrotondati alla prima posizione decimale. Queste valutazioni e punteggi riflettono la gravità prevista dei contenuti appartenenti a una determinata categoria.
Esempio di risposta
{
"predictions": [
{
"safetyAttributes": {
"categories": [
"Derogatory",
"Toxic",
"Violent",
"Sexual",
"Insult",
"Profanity",
"Death, Harm & Tragedy",
"Firearms & Weapons",
"Public Safety",
"Health",
"Religion & Belief",
"Illicit Drugs",
"War & Conflict",
"Politics",
"Finance",
"Legal"
],
"scores": [
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1,
0.1
],
"safetyRatings": [
{"category": "Hate Speech", "severity": "NEGLIGIBLE", "severityScore": 0.0,"probabilityScore": 0.1},
{"category": "Dangerous Content", "severity": "LOW", "severityScore": 0.3, "probabilityScore": 0.1},
{"category": "Harassment", "severity": "MEDIUM", "severityScore": 0.6, "probabilityScore": 0.1},
{"category": "Sexually Explicit", "severity": "HIGH", "severityScore": 0.9, "probabilityScore": 0.1}
],
"blocked": false
},
"content": "<>"
}
]
}
Nota: le categorie con un punteggio che viene arrotondato a 0,0 vengono omesse nella risposta. Questa risposta di esempio è solo a scopo illustrativo.
Esempio di risposta in caso di blocco
{
"predictions": [
{
"safetyAttributes": {
"blocked": true,
"errors": [
150,
152,
250
]
},
"content": ""
}
]
}
Descrizioni degli attributi di sicurezza
Attributo di sicurezza | Descrizione |
---|---|
Contenuti dispregiativi | Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti. |
Contenuti tossici | Contenuti scurrili, irrispettosi o volgari. |
Contenuti di natura sessuale | Riferimenti ad atti sessuali o ad altri contenuti osceni. |
Contenuti violenti | Descrive gli scenari di violenza contro un individuo o un gruppo oppure descrizioni generali di spargimenti di sangue. |
Insulti | Commento offensivo, provocatorio o negativo nei confronti di una persona o di un gruppo di persone. |
Linguaggio volgare | Linguaggio osceno o volgare come parolacce. |
Morte, danni e tragedie | Morti umane, tragedie, incidenti, disastri e autolesionismo. |
Armi e armi da fuoco | Contenuti che fanno riferimento a coltelli, pistole, armi personali e accessori, come munizioni, fondine e così via. |
Sicurezza pubblica | Servizi e organizzazioni che forniscono soccorso e garantiscono la sicurezza pubblica. |
Salute | Salute umana, tra cui: condizioni di salute, malattie e disturbi; terapie mediche, farmaci, vaccinazioni e pratiche mediche; risorse per la guarigione, inclusi gruppi di supporto. |
Credo e religione | Credo che riguardano la possibilità di leggi ed esseri soprannaturali; religione, fede, credo, pratiche spirituali, chiese e luoghi di culto. Include l'astrologia e l'occultismo. |
Sostanze stupefacenti illegali | Sostanze stupefacenti per uso ricreativo e illecite, accessori e coltivazione di droga, headshop e altro ancora. Include l'uso di medicinali di solito utilizzati a scopo ricreativo (ad esempio, la marijuana). |
Guerre e conflitti | Guerre, conflitti militari e grandi conflitti fisici che coinvolgono un gran numero di persone. Include la discussione sui servizi militari, anche se non direttamente correlati a una guerra o un conflitto. |
Finanza | Servizi finanziari per privati e aziende, come servizi bancari, prestiti, crediti, investimenti, assicurazioni e altro ancora. |
Politica | Notizie e media politici; discussioni su politica sociale, governativa e pubblica. |
Informazioni legali | Contenuti correlati alla legge, per includere: studi legali, informazioni legali, materiali legali principali, servizi paralegali, tecnologie e pubblicazioni legali, testimoni esperti, consulenti per controversie e altri fornitori di servizi legali. |
Attributi di sicurezza con classificazioni di sicurezza
Attributo di sicurezza | Definizione | Livelli |
---|---|---|
Incitamento all'odio | Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti. | Alto, Medio, Basso, Trascurabile |
Molestie | Commenti dannosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. | Alto, Medio, Basso, Trascurabile |
Sessualmente esplicito | Riferimenti ad atti sessuali o ad altri contenuti osceni. | Alto, Medio, Basso, Trascurabile |
Contenuti pericolosi | Promuovono o consentono l'accesso a beni, servizi e attività dannosi. | Alto, Medio, Basso, Trascurabile |
Soglie di sicurezza
Le soglie di sicurezza vengono applicate per i seguenti attributi di sicurezza:
- Incitamento all'odio
- Molestie
- Sessualmente esplicito
- Contenuti pericolosi
Google blocca le risposte del modello che superano i punteggi di gravità designati per questi attributi di sicurezza. Per richiedere la possibilità di modificare una soglia di sicurezza, contatta il team dedicato al tuo account Google Cloud.
Test delle soglie di affidabilità e gravità
Puoi testare i filtri di sicurezza di Google e definire soglie di confidenza adatte alla tua attività. Utilizzando queste soglie, puoi adottare misure complete per rilevare contenuti che violano le norme di utilizzo o i termini di servizio di Google e adottare gli opportuni provvedimenti.
I punteggi di affidabilità sono solo previsioni e non devono dipendere dai punteggi per affidabilità o accuratezza. Google non è responsabile dell'interpretazione o dell'uso di questi punteggi per le decisioni aziendali.
Importante: probabilità e gravità
Ad eccezione dei quattro attributi di sicurezza con classificazioni di sicurezza, i punteggi di confidenza dei filtri dell'API PaLM si basano sulla probabilità che i contenuti siano non sicuri e non sulla gravità. Questo è importante perché alcuni contenuti possono avere una bassa probabilità di non essere sicuri, anche se la gravità del danno potrebbe essere comunque elevata. Ad esempio, confrontando le frasi:
- Il robot mi ha dato un pugno.
- Il robot mi ha colpito.
La frase 1 potrebbe aumentare le probabilità di non essere sicura, ma potresti considerare la frase 2 una gravità maggiore in termini di violenza.
Pertanto, è importante che i clienti testano e valutino attentamente quale sia il livello appropriato di blocco necessario per supportare i loro casi d'uso chiave, riducendo al minimo i danni per gli utenti finali.
Impostazioni di sicurezza in Vertex AI Studio
Con la soglia del filtro di sicurezza regolabile, puoi regolare la probabilità
di vedere risposte potenzialmente dannose. Le risposte del modello vengono bloccate in base alla
probabilità che contengano molestie, incitamento all'odio, contenuti pericolosi o
contenuti sessualmente espliciti. Il filtro di sicurezza si trova sul lato destro
del campo del prompt in Vertex AI Studio. Puoi scegliere fra tre opzioni: block most
, block some
e block few
.
Filtro citazione
Le nostre funzionalità di codice generativo sono pensate per produrre contenuti originali e non replicare in dettaglio contenuti esistenti. Abbiamo progettato i nostri sistemi in modo da limitare le possibili cause di questo problema e migliorare continuamente il loro funzionamento. Se queste funzionalità citano direttamente e in dettaglio una pagina web, citano quella pagina.
A volte gli stessi contenuti sono presenti su più pagine web e cerchiamo di indirizzarvi a una fonte molto conosciuta. Nel caso di citazioni di repository di codice, la citazione potrebbe anche fare riferimento a una licenza open source applicabile. Il rispetto di eventuali requisiti di licenza è una tua responsabilità.
Per ulteriori informazioni sui metadati del filtro per le citazioni, consulta la documentazione di riferimento dell'API Citation.
Errori di sicurezza
I codici di errore di sicurezza sono codici di tre cifre che rappresentano il motivo per cui un prompt o una risposta è stato bloccato. La prima cifra è un prefisso che
indica se il codice si applica al prompt o alla risposta, mentre
le cifre rimanenti identificano il motivo per cui il prompt o la risposta sono stati bloccati.
Ad esempio, un codice di errore 251
indica che la risposta è stata bloccata
a causa di un problema con contenuti di incitamento all'odio nella risposta del modello.
È possibile restituire più codici di errore in una singola risposta.
Se si verificano errori che bloccano i contenuti nella risposta dal modello
(prefisso = 2
, ad esempio 250
), modifica l'impostazione temperature
nella richiesta. Questo consente di generare un insieme
di risposte diverso con meno possibilità di essere bloccato.
Prefisso codice di errore
Il prefisso del codice di errore è la prima cifra del codice di errore.
1 | Il codice di errore si applica al prompt inviato al modello. |
2 | Il codice di errore si applica alla risposta del modello. |
Motivo del codice di errore
Il motivo del codice di errore è costituito dalla seconda e dalla terza cifra del codice.
I motivi dei codici di errore che iniziano con 3
o 4
indicano prompt o risposte bloccate perché è stata raggiunta la soglia di confidenza per una violazione dell'attributo di sicurezza.
I motivi dei codici di errore che iniziano con 5
indicano prompt o risposte in cui
sono stati trovati contenuti non sicuri.
10 | La risposta è stata bloccata a causa di un problema di qualità o di un'impostazione del parametro che interessa i metadati delle citazioni. Questo vale solo per le risposte del modello. Vale a dire Il controllo delle citazioni identifica i problemi di qualità o quelli derivanti da un'impostazione dei parametri. Prova ad aumentare i parametri Per maggiori informazioni, consulta la sezione Filtro citazione. |
20 | La lingua fornita o restituita non è supportata. Per un elenco delle lingue supportate, vedi Supporto delle lingue. |
30 | Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. Un termine è incluso dalla lista bloccata terminologica. Riformula il prompt. |
31 | I contenuti potrebbero includere informazioni sensibili che consentono l'identificazione personale (informazioni personali sensibili). Riformula il prompt. |
40 | Il prompt o la risposta sono stati bloccati perché sono risultati essere potenzialmente dannosi. I contenuti violano le impostazioni di SafeSearch. Riformula il prompt. |
50 | Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti sessualmente espliciti. Riformula il prompt. |
51 | Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti di incitamento all'odio. Riformula il prompt. |
52 | Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti molesti. Riformula il prompt. |
53 | Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti pericolosi. Riformula il prompt. |
54 | Il prompt o la risposta sono stati bloccati perché potrebbero includere contenuti tossici. Riformula il prompt. |
00 | Motivo sconosciuto. Riformula il prompt. |
Passaggi successivi
- Scopri di più sull'IA responsabile.
- Scopri di più sulla governance dei dati.