Concetti fondamentali

Questa pagina fornisce informazioni sui concetti chiave di Model Armor.

Modelli Model Armor

I modelli di Model Armor ti consentono di configurare la modalità di scrematura dei prompt e delle risposte da parte di Model Armor. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza in termini di sicurezza e protezione, consentendo di controllare i contenuti segnalati.

Le soglie rappresentano i livelli di confidenza. In altre parole, quanto è affidabile Model Armor in merito al prompt o alla risposta che include contenuti offensivi. Ad esempio, puoi creare un modello che filtri i prompt per contenuti di incitamento all'odio con una soglia HIGH, il che significa che Model Armor segnala con un'elevata attendibilità che il prompt contiene contenuti di incitamento all'odio. Una soglia LOW_AND_ABOVE indica qualsiasi livello di fiducia (LOW, MEDIUM e HIGH) per fare questa affermazione.

Filtri Model Armor

Model Armor offre una serie di filtri per aiutarti a fornire modelli di IA sicuri. Ecco una suddivisione delle categorie di filtri.

Filtro di sicurezza AI responsabile

I prompt e le risposte possono essere esaminati con i livelli di confidenza sopra indicati per le seguenti categorie:

Categoria Definizione
Incitamento all'odio Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti.
Molestie Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo.
Contenuti sessualmente espliciti Contiene riferimenti ad atti sessuali o ad altri contenuti osceni.
Contenuti pericolosi Promuove o consente l'accesso a beni, servizi e attività dannosi.

Il filtro per il materiale pedopornografico viene applicato per impostazione predefinita e non può essere disattivato.

Rilevamento di prompt injection e jailbreaking

L'iniezione di prompt è una vulnerabilità della sicurezza in cui gli utenti malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di IA. L'AI potrebbe ignorarne le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata. Il jailbreak nel contesto degli LLM si riferisce all'atto di bypassare i protocolli di sicurezza e le linee guida etiche integrati nel modello. In questo modo, l'LLM può generare risposte che inizialmente era stato progettato per evitare, come contenuti dannosi, non etici e pericolosi.

Quando il rilevamento di prompt injection e jailbreak è attivato, Model Armor esamina i prompt e le risposte per rilevare contenuti dannosi. Se viene rilevato, Model Armor blocca il prompt o la risposta.

Sensitive Data Protection

I dati sensibili, come il nome o l'indirizzo di una persona, potrebbero essere inviati inavvertitamente o intenzionalmente a un modello o forniti nella risposta di un modello.

La protezione dei dati sensibili è un Google Cloud servizio per aiutarti a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesti e documenti sensibili per aiutarti a ridurre il rischio di fughe di dati in entrata e in uscita dai carichi di lavoro di IA. Puoi utilizzare Sensitive Data Protection direttamente all'interno di Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, che sono configurazioni che agiscono come blueprint per semplificare il processo di scansione e identificazione di dati sensibili specifici per la tua attività e le tue esigenze di conformità. In questo modo, puoi avere coerenza e interoperabilità tra altri carichi di lavoro che utilizzano Sensitive Data Protection.

Model Armor offre due modalità per la configurazione di Sensitive Data Protection:

  • Configurazione di base di Sensitive Data Protection: questa modalità offre un modo più semplice per configurare Sensitive Data Protection specificando direttamente i tipi di dati sensibili da cercare. Supporta sei categorie: CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS, GCP_API_KEY. La configurazione di base consente solo operazioni di ispezione e non supporta l'uso di modelli di Sensitive Data Protection. Per ulteriori informazioni, consulta la pagina relativa alla configurazione di base di Sensitive Data Protection.

  • Configurazione avanzata di Sensitive Data Protection: questa modalità offre maggiore flessibilità e personalizzazione consentendo l'utilizzo dei modelli di Sensitive Data Protection. I modelli di protezione dei dati sensibili sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta sia le operazioni di ispezione che quelle di anonimizzazione.

Sebbene sia possibile impostare i livelli di confidenza per la protezione dei dati sensibili, questi funzionano in modo leggermente diverso rispetto ai livelli di confidenza per altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.

Rilevamento di URL dannosi

Gli URL dannosi sono spesso mascherati per sembrare legittimi, il che li rende un potente strumento per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere eventuali sistemi a valle che elaborano gli output di LLM.

Quando il rilevamento di URL dannosi è attivato, Model Armor esegue la scansione degli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire che vengano restituiti URL dannosi.

Livelli di confidenza di Model Armor

I livelli di confidenza possono essere impostati per le categorie di sicurezza dell'IA responsabile (ovvero contenuti di natura sessuale, dannosi, molestie e incitamento all'odio), per l'iniezione di prompt e il jailbreak e per la protezione dei dati sensibili (inclusa l'attualità).

Per i livelli di confidenza che consentono soglie granulari, Model Armor li interpreta nel seguente modo:

  • Alta: identifica se il messaggio contiene contenuti con un'alta probabilità.
  • Medio e superiore: identifica se il messaggio contiene contenuti con probabilità media o alta.
  • Bassa e superiore: identifica se il messaggio contiene contenuti con probabilità bassa, media o alta.

Screening dei PDF

Il testo nei PDF può includere contenuti dannosi e sensibili. Model Armor può controllare i PDF per verificarne la sicurezza, i tentativi di prompt injection e jailbreak, i dati sensibili e gli URL dannosi.

Impostazioni del piano di Model Armor

Sebbene i modelli di Model Armor offrano flessibilità per le singole applicazioni, spesso le organizzazioni devono stabilire un livello di protezione di base per tutte le applicazioni di IA. È qui che vengono utilizzate le impostazioni del limite minimo di Model Armor. Agiscono come regole che stabiliscono i requisiti minimi per tutti i modelli creati in un punto specifico della gerarchia delle Google Cloud risorse (ovvero a livello di organizzazione, cartella o progetto).

Per ulteriori informazioni, vedi Impostare il limite minimo del modello di protezione.

Passaggi successivi