Sensitive Data Protection utilizza i tipi di informazioni, o infoType, per definire gli elementi da cercare. Un infoType è un tipo di dato sensibile, ad esempio nome, indirizzo email, numero di telefono, numero di identificazione, numero di carta di credito e così via.
Ogni infoType definito in Sensitive Data Protection ha un corrispondente rilevatore. Sensitive Data Protection utilizza i rilevatori di infoType nella configurazione per le sue analisi per determinare cosa cercare e come trasformare i risultati. I nomi di InfoType vengono utilizzati anche per visualizzare o segnalare i risultati della scansione.
Questo argomento descrive in dettaglio gli infoType e i relativi rilevatori e fornisce indicazioni su come utilizzarli durante la scansione dei contenuti per rilevare i dati sensibili utilizzando Sensitive Data Protection.
Specifica dei rilevatori di infoType
Quando configuri la protezione dei dati sensibili per analizzare i tuoi contenuti, includi i rilevatori di infoType da utilizzare nella configurazione della scansione.
Ad esempio, il seguente JSON mostra una semplice richiesta di scansione all'API DLP. Tieni presente che il rilevatore PHONE_NUMBER
è specificato in
inspectConfig
,
che indica a Sensitive Data Protection di cercare un numero di telefono nella stringa specificata.
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
La richiesta precedente restituisce quanto segue:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Specifica sempre infoTypes nella configurazione della scansione. Se non specifichi alcun infoType, Sensitive Data Protection utilizza un elenco di infoType predefiniti. A seconda della quantità di contenuti da scansionare, la ricerca di infoType predefiniti può essere eccessivamente dispendiosa in termini di tempo o di costi.
Per saperne di più su come utilizzare i rilevatori di infoType per eseguire la scansione dei contenuti, consulta uno degli argomenti di istruzioni sull'ispezione, l'oscuramento o la rimozione dell'identità.
Tipi di rilevatori di infoType
I rilevatori di tipo di informazioni (o "infoType") sono i meccanismi utilizzati da Sensitive Data Protection per trovare i dati sensibili.
Sensitive Data Protection include diversi tipi di rilevatori di infoType, tutti brevemente descritti di seguito:
- I rivelatori di infoType integrati sono integrati in Sensitive Data Protection. Sono inclusi rilevatori per tipi di dati sensibili specifici per paese o regione, nonché tipi di dati applicabili a livello globale.
- I rivelatori di infoType personalizzati sono quelli che crei personalmente. Esistono tre tipi di rilevatori di infoType personalizzati:
- I rivelatori di dizionari personalizzati normali sono semplici elenchi di parole su cui si basa la funzionalità Protezione dei dati sensibili. Utilizza i rilevatori di dizionario personalizzato standard quando hai un elenco di massimo diverse decine di migliaia di parole o frasi. I rilevatori di dizionari personalizzati normali sono preferibili se non prevedi che l'elenco di parole cambierà in modo significativo.
- I rivelatori di dizionari personalizzati archiviati vengono generati da Sensitive Data Protection utilizzando elenchi di parole o frasi di grandi dimensioni archiviati in Cloud Storage o BigQuery. Utilizza i rilevatori di dizionario personalizzato memorizzati quando hai un elenco di parole o frasi di grandi dimensioni, fino a decine di milioni.
- I rilevatori di espressioni regolari (regex) consentono a Sensitive Data Protection di rilevare le corrispondenze in base a un pattern di espressioni regolari.
Inoltre, la funzionalità Protezione dei dati sensibili include il concetto di regole di ispezione, che ti consente di perfezionare i risultati della scansione utilizzando quanto segue:
- Le regole di esclusione ti consentono di ridurre il numero di risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.
- Le regole hotword ti consentono di aumentare la quantità o modificare il valore di probabilità dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.
Rilevatori di infoType integrati
I rilevatori di infoType integrati sono integrati in Protezione dei dati sensibili e includono rilevatori per tipi di dati sensibili specifici per paese o regione, come il Numéro d'Inscription au Répertoire (NIR) francese (FRANCE_NIR
), il numero di patente di guida del Regno Unito (UK_DRIVERS_LICENSE_NUMBER
) e il numero di previdenza sociale statunitense (US_SOCIAL_SECURITY_NUMBER
). Sono inclusi anche tipi di dati applicabili a livello globale, come il nome di una persona (PERSON_NAME
), i numeri di telefono (PHONE_NUMBER
), gli indirizzi email (EMAIL_ADDRESS
) e i numeri di carte di credito (CREDIT_CARD_NUMBER
).Per rilevare i contenuti corrispondenti agli infoType, Protezione dei dati sensibili sfrutta varie tecniche, tra cui la corrispondenza di pattern, i checksum, l'apprendimento automatico, l'analisi del contesto e altre.
L'elenco dei rilevatori di infoType integrati viene aggiornato continuamente. Per un elenco completo dei rilevatori di infoType integrati attualmente supportati, consulta la guida di riferimento per i rilevatori di infoType.
Puoi anche visualizzare un elenco completo di tutti i rilevatori di infoType integrati chiamando il metodo infoTypes.list
di Sensitive Data Protection.
Rilevatori di infoType personalizzati
Esistono tre tipi di rilevatori di infoType personalizzati:
- Rilevatori di dizionari personalizzati normali
- Rilevatori di dizionari personalizzati archiviati
- Espressioni regolari (regex)
Inoltre, Sensitive Data Protection include regole di ispezione che ti consentono di perfezionare i risultati della scansione aggiungendo quanto segue ai rilevatori esistenti:
Rilevatori di dizionari personalizzati normali
Utilizza i rivelatori di dizionario personalizzato normale per trovare una corrispondenza con un breve (fino a diverse decine di migliaia) elenco di parole o frasi. Un dizionario personalizzato normale può fungere da rilevatore univoco.
I rilevatori di dizionario personalizzati sono utili quando vuoi eseguire la ricerca di un elenco di parole o frasi che non corrispondono facilmente a un'espressione regolare o a un rilevatore integrato. Ad esempio, supponiamo che tu voglia cercare sale conferenze a cui si fa comunemente riferimento con i nomi assegnati anziché con i relativi numeri, come nomi di stati o regioni, punti di riferimento, personaggi di fantasia e così via. Puoi creare un normale rilevatore di dizionari personalizzati contenente un elenco di questi nomi di stanza. La funzionalità Sensitive Data Protection può analizzare i tuoi contenuti per individuare ciascuno dei nomi delle stanze e restituire una corrispondenza quando ne trova uno nel contesto. Scopri di più su come Sensitive Data Protection associa le parole e le frasi del dizionario nella sezione "Specifiche della corrispondenza del dizionario" della pagina Creare un rilevatore di dizionario personalizzato normale.
Per ulteriori dettagli sul funzionamento dei rilevatori di infoType personalizzati dei dizionari regolari, nonché esempi pratici, consulta Creare un rilevatore di dizionari personalizzati normale.
Rilevatori di dizionari personalizzati archiviati
Utilizza i rivelatori di dizionari personalizzati archiviati se devi cercare più parole o frasi o se il tuo elenco di parole o frasi cambia spesso. I rilevatori di dizionari personalizzati archiviati possono trovare corrispondenze fino a decine di milioni di parole o frasi.
I rilevatori di dizionari personalizzati archiviati, per loro natura molto grandi, vengono creati in modo diverso rispetto ai rilevatori personalizzati con espressioni regolari e ai rilevatori di dizionari personalizzati standard. Ogni dizionario personalizzato archiviato ha due componenti:
- Un elenco di frasi che crei e definisci. L'elenco viene archiviato come file di testo in Cloud Storage o come colonna in una tabella BigQuery.
- I file del dizionario generati, creati da Sensitive Data Protection in base al tuo elenco di frasi. I file del dizionario sono archiviati in Cloud Storage e sono costituiti da una copia dei dati delle frasi di origine più i filtri Bloom, che aiutano nella ricerca e nella corrispondenza. Non puoi modificare direttamente questi file.
Dopo aver creato un elenco di parole e aver utilizzato Sensitive Data Protection per generare un dizionario personalizzato, avvia o pianifica una scansione utilizzando un rilevatore di dizionari personalizzati archiviato in modo simile ad altri rilevatori di infoType.
Per ulteriori dettagli sul funzionamento dei rilevatori di dizionari personalizzati archiviati, nonché su esempi pratici, consulta Creare un rilevatore di dizionari personalizzati archiviato.
Espressioni regolari
Un rilevatore di infoType personalizzato con espressioni regolari (regex) ti consente di creare i tuoi rilevatori di infoType che consentono a Sensitive Data Protection di rilevare le corrispondenze in base a un pattern regex. Ad esempio, supponiamo che tu abbia numeri di record medici nel formato ###-#-#####
. Potresti definire un pattern regex come il seguente:
[1-9]{3}-[1-9]{1}-[1-9]{5}
Sensitive Data Protection assocerebbe quindi elementi come:
123-4-56789
Puoi anche specificare una probabilità da assegnare a ogni corrispondenza di infoType personalizzato. In altre parole, quando Sensitive Data Protection trova una corrispondenza con la sequenza specificata, assegna la probabilità che hai indicato.
Questo è utile perché se la tua regex personalizzata definisce una sequenza abbastanza comune da poter corrispondere facilmente a un'altra sequenza casuale, non vorrai che la Protezione dei dati sensibili etichetti ogni corrispondenza come VERY_LIKELY
. In questo modo,
la fiducia nei risultati della scansione verrebbe minata e potenzialmente le informazioni sbagliate
verrebbero anonimizzate.
Per ulteriori informazioni sui rilevatori di infoType personalizzati con espressioni regolari e per visualizzarli in azione, consulta Creare un rilevatore di regex personalizzato.
Regole di ispezioni
Utilizzi le regole di ispezione per perfezionare i risultati restituiti dai rilevatori di infoType esistenti, integrati o personalizzati. Le regole di ispezione possono essere utili quando i risultati restituiti dalla Protezione dei dati sensibili devono essere aumentati in qualche modo, aggiungendo elementi al rilevatore infoType esistente ed escludendoli.
I due tipi di regole di ispezione sono:
- Regole di esclusione
- Regole hotword
Per ulteriori informazioni sulle regole di ispezione, consulta Modificare i rilevatori infoType per perfezionare i risultati della scansione.
Regole di esclusione
Le regole di esclusione ti consentono di ridurre la quantità o la precisione dei risultati ritornati aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole di esclusione possono aiutarti a ridurre il rumore o altri risultati indesiderati restituiti da un rilevatore di infoType.
Ad esempio, se esegui la scansione di un database per trovare indirizzi email, puoi aggiungere una regola di esclusione sotto forma di regex personalizzata che indichi a Protezione dei dati sensibili di escludere tutti i risultati che terminano con "@example.com".
Per ulteriori informazioni sulle regole di esclusione, consulta Modificare i rilevatori infoType per perfezionare i risultati della scansione.
Regole hotword
Le regole hotword ti consentono di aumentare la quantità o l'accuratezza dei risultati riportati aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole per le hotword possono aiutarti a allentare in modo efficace le regole di un rilevatore infoType esistente.
Ad esempio, supponiamo che tu voglia cercare i nomi dei pazienti in un database medico. Puoi utilizzare il rilevatore PERSON_NAME
infoType
incorporato in Protezione dei dati sensibili, ma questo causerà una corrispondenza su tutti
i nomi delle persone, non solo sui nomi dei pazienti. Per risolvere il problema, puoi includere una regola hotword sotto forma di infoType personalizzato regex che cerca la parola "paziente" entro una certa distanza dal primo carattere delle potenziali corrispondenze. Puoi quindi assegnare ai risultati corrispondenti a questo pattern una probabilità di "molto probabile", poiché corrispondono ai tuoi criteri speciali.
Per ulteriori informazioni sulle regole hotword, consulta Modificare i rilevatori infoType per perfezionare i risultati della scansione.