I modelli di AI generativa come Gemini richiedono solide misure di sicurezza per mitigare i rischi, ad esempio la generazione di contenuti dannosi, la divulgazione di informazioni sensibili o l'uso improprio. Google CloudLa piattaforma Vertex AI fornisce una suite di strumenti e pratiche per implementare una sicurezza olistica per i tuoi modelli Gemini.
Potenziali rischi per la sicurezza e strategie di mitigazione
Quando vengono implementati i modelli Gemini, è fondamentale identificare e mitigare vari potenziali rischi. Un approccio proattivo alla comprensione di questi rischi consente un'implementazione più efficace delle misure di sicurezza. Un approccio alla sicurezza a più livelli è fondamentale, in quanto può mitigare o prevenire:
- Rischi dei contenuti:possono includere contenuti dannosi, volgarità e sessualizzazione, violenza e contenuti cruenti.
- Rischi per la sicurezza del brand:i contenuti generati potrebbero non essere in linea con il tono o i valori del tuo brand, potrebbero promuovere concorrenti o prodotti inappropriati oppure generare contenuti che possono causare danni alla reputazione.
- Rischi di allineamento: i contenuti generati potrebbero essere irrilevanti o imprecisi.
- Rischi per la sicurezza e la privacy: i contenuti generati potrebbero divulgare dati o prompt di addestramento sensibili oppure utenti ostili potrebbero tentare di forzare il modello a ignorare i protocolli di sicurezza o a comportarsi in modo imprevisto.
I nostri modelli implementati offrono varie funzionalità per risolvere questi potenziali problemi:
- Il modello predefinito e i filtri non configurabili forniscono una rete di sicurezza generale.
- Le istruzioni di sistema forniscono indicazioni dirette al modello sul comportamento e sugli argomenti preferiti da evitare.
- I filtri dei contenuti ti consentono di impostare soglie specifiche per i tipi di danni comuni.
- Gemini come filtro offre un checkpoint avanzato e personalizzabile per problemi di sicurezza complessi o sfumati che potrebbero sfuggire ai livelli precedenti o richiedere una valutazione più sensibile al contesto.
- La DLP affronta in modo specifico il rischio critico di perdita di dati sensibili, nel caso in cui il modello abbia accesso a dati sensibili. Consente inoltre di creare elenchi di blocco personalizzati.
Strumenti di sicurezza disponibili in Vertex AI per Gemini
Vertex AI offre diversi strumenti per gestire la sicurezza dei tuoi modelli Gemini. Comprendere il funzionamento di ciascuno, le relative considerazioni e i casi d'uso ideali ti aiuterà a creare una soluzione di sicurezza personalizzata.
Approccio | Come funziona | Protezione fornita | Rischi | Quando utilizzarlo |
---|---|---|---|---|
Impostazioni predefinite: Gemini + filtri non configurabili | I modelli Gemini sono progettati intrinsecamente con la sicurezza e l'equità in mente, anche quando vengono utilizzati prompt avversariali. Google ha investito in valutazioni complete della sicurezza, anche per quanto riguarda pregiudizi e tossicità. Le impostazioni predefinite includono un livello di protezione indipendente progettato per impedire la generazione di contenuti correlati al materiale pedopornografico o ai contenuti protetti da copyright (recitazione). | Protezione di base contro il materiale pedopornografico e il copyright (recitazione) | La sicurezza predefinita di Gemini potrebbe non soddisfare le esigenze della tua organizzazione. Il modello può avere allucinazioni o non seguire le istruzioni. Gli aggressori motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection | Workflows in cui non è previsto alcun input dannoso |
Filtri configurabili |
I filtri dei contenuti predefiniti di Gemini forniscono una protezione aggiuntiva contro
varie categorie di contenuti dannosi, come contenuti di natura sessuale, che incitano all'odio, che includono molestie o
pericolosi. Puoi configurare le soglie di blocco per ogni categoria di contenuti dannosi
(ad es. BLOCK_LOW_AND_ABOVE , BLOCK_MEDIUM_AND_ABOVE ,
BLOCK_ONLY_HIGH ) in base alla probabilità e/o alla gravità dei contenuti
dannosi. Si tratta di un livello indipendente dal modello, quindi sono resistenti
ai jailbreak.
|
Robusto contro le violazioni per le categorie predefinite, sensibilità regolabile | Non offre una personalizzazione granulare oltre alle impostazioni di soglia per le categorie predefinite. Potrebbe occasionalmente bloccare contenuti innocui (falsi positivi) o non rilevare alcuni contenuti dannosi (falsi negativi). Disponibile solo per il filtraggio delle risposte, non per il filtraggio dei prompt. | Fornire un livello di sicurezza di base per le applicazioni o gli agenti rivolti agli utenti. Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, i filtri dei contenuti devono essere abbinati alle istruzioni di sistema. |
Istruzioni di sistema | Puoi fornire al modello le linee guida per la sicurezza del brand e dei contenuti tramite istruzioni di sistema o preamboli. Ad esempio, puoi dire al modello "non rispondere a domande relative alla politica" o di rispettare linee guida specifiche per la voce e il tono del brand. Le istruzioni di sistema guidano direttamente il comportamento del modello. | Personalizzabile per la sicurezza dei contenuti/del brand, può essere molto efficace. | Il modello può avere allucinazioni o non seguire le istruzioni. Gli aggressori motivati potrebbero comunque riuscire a eseguire jailbreak e prompt injection | Applicazioni o agenti che richiedono il rispetto di linee guida specifiche del brand o di norme sui contenuti più dettagliate. Se il tuo obiettivo è garantire la sicurezza dei contenuti e del brand, le istruzioni di sistema devono essere abbinate ai filtri dei contenuti. |
DLP per elenchi di blocco personalizzati e protezione dei dati sensibili | L'API DLP può ispezionare il testo per identificare e classificare le informazioni sensibili in base a un'ampia gamma di rilevatori di infoType predefiniti e personalizzati. Una volta identificati, può applicare tecniche di anonimizzazione come oscuramento, mascheramento o tokenizzazione. L'API DLP può essere utilizzata anche per bloccare le parole chiave. Protezione dell'input: prima di inviare prompt o dati utente a Gemini, puoi passare il testo tramite l'API DLP per oscurare o mascherare qualsiasinformazioni sensibilile. In questo modo si impedisce l'elaborazione o la registrazione di dati sensibili da parte del modello. Protezione dell'output: se esiste il rischio che Gemini possa generare o rivelare inavvertitamente informazioni sensibili (ad es. se riassume documenti di origine contenenti PII), l'output del modello può essere analizzato dall'API DLP prima di essere inviato all'utente. | Filtro efficace per le volgarità o le parole personalizzate. Filtro avanzato per i dati sensibili. | Aggiunge latenza. Può portare a un blocco eccessivo. | Protezione dalla perdita di dati per gli agenti che hanno accesso a dati sensibili. |
Gemini come filtro | Puoi utilizzare Gemini per filtrare prompt e risposte per il tuo agente o la tua app. Ciò comporta l'esecuzione di una seconda chiamata a un modello Gemini veloce ed economico (come Gemini Flash o Flash Lite) per valutare se l'input di un utente o di uno strumento o l'output del tuo modello Gemini principale è sicuro. Al modello di filtro vengono fornite istruzioni per decidere se i contenuti sono sicuri o non sicuri in base alle norme definite, tra cui sicurezza dei contenuti, sicurezza del brand e disallineamento dell'agente. Offre una protezione solida e altamente personalizzabile contro violazioni della sicurezza dei contenuti, problemi di sicurezza del brand, deriva del modello e allucinazioni e può analizzare testo, immagini, video e audio per una comprensione olistica. | Altamente robusto e personalizzabile per la sicurezza di contenuti/brand, deriva, allucinazione; comprensione multimodale. | Costi e latenza aggiuntivi. Possibilità di falsi negativi estremamente rari. | Fornire un livello di sicurezza personalizzato per applicazioni o agenti rivolti agli utenti |
Approccio multilivello: filtri configurabili + istruzioni di sistema + DLP + Gemini come filtro | Altamente robusto e personalizzabile per la sicurezza di contenuti/brand, deriva, allucinazione; comprensione multimodale | Costi e latenza aggiuntivi. | Fornisci un livello di sicurezza elevato per applicazioni o agenti rivolti agli utenti, soprattutto dove è previsto un uso ostile e dannoso |
Valutazione continua della sicurezza
La valutazione continua della sicurezza è fondamentale per i sistemi di AI, poiché il panorama dell'AI e i metodi di utilizzo improprio sono in continua evoluzione. Le valutazioni regolari aiutano a identificare le vulnerabilità, valutare l'efficacia della mitigazione, adattarsi ai rischi in evoluzione, garantire l'allineamento con le norme e i valori, creare fiducia e mantenere la conformità. A questo scopo, vengono utilizzati vari tipi di valutazione, tra cui valutazioni di sviluppo, valutazioni di garanzia, red teaming, valutazioni esterne e test di benchmark. L'ambito della valutazione deve coprire la sicurezza dei contenuti, la sicurezza del brand, la pertinenza, i pregiudizi e l'equità, la veridicità e la robustezza agli attacchi avversari. Strumenti come il servizio di valutazione dell'AI generativa di Vertex AI possono aiutarti in questi sforzi, sottolineando che i miglioramenti iterativi basati sui risultati della valutazione sono essenziali per lo sviluppo responsabile dell'AI.