Anonimizzazione

Sensitive Data Protection utilizza tipi di informazioni, o infoType, per definire l'analisi. Un infoType è un tipo di dati sensibili, come un nome, un indirizzo email, un numero di telefono, un numero di identificazione, un numero di carta di credito e così via.

A ogni infoType definito in Sensitive Data Protection è associato un rilevatore. Sensitive Data Protection utilizza rilevatori di infoType nella configurazione per le sue analisi al fine di determinare cosa ispezionare e come trasformare i risultati. I nomi degli infoType vengono utilizzati anche per la visualizzazione o la segnalazione dei risultati della scansione.

Questo argomento descrive in dettaglio infoType e rilevatori infoType e fornisce indicazioni su come utilizzare questi rilevatori durante l'analisi dei contenuti alla ricerca di dati sensibili mediante Sensitive Data Protection.

Specificare i rilevatori infoType

Quando configuri Sensitive Data Protection per la scansione dei contenuti, includi i rilevatori di infoType da utilizzare nella configurazione della scansione.

Ad esempio, il seguente JSON mostra una semplice richiesta di scansione all'API DLP. Tieni presente che il rilevatore PHONE_NUMBER è specificato in inspectConfig, che indica a Sensitive Data Protection di scansionare la stringa specificata per trovare un numero di telefono.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

La richiesta precedente restituisce quanto segue:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Specifica sempre gli infoTypes nella configurazione della scansione. Se non specifichi alcun infoType, Sensitive Data Protection utilizza un elenco di infoType predefinito. A seconda della quantità di contenuti da sottoporre a scansione, l'analisi degli infoType predefiniti può richiedere molto tempo o denaro in modo proibitivo.

Per ulteriori informazioni su come utilizzare i rilevatori infoType per analizzare i contenuti, consulta uno degli argomenti didattici su ispezione, oscuramento o anonimizzazione.

Tipi di rilevatori infoType

I rilevatori di tipi di informazioni (o "infoType") sono i meccanismi utilizzati da Sensitive Data Protection per trovare i dati sensibili.

Sensitive Data Protection include diversi tipi di rilevatori infoType, tutti riassunti di seguito:

  • I rilevatori di infoType integrati sono integrati in Sensitive Data Protection. Includono rilevatori di tipi di dati sensibili specifici per paese o regione, nonché tipi di dati applicabili a livello globale.
  • I rilevatori di infoType personalizzati sono rilevatori creati da te. Esistono tre tipi di rilevatori infoType personalizzati:
    • I rilevatori di dizionari personalizzati normali sono semplici elenchi di parole in cui vengono trovate corrispondenze con la protezione dei dati sensibili. Utilizza normali rilevatori di dizionari personalizzati quando hai un elenco di diverse decine di migliaia di parole o frasi. Se non prevedi che l'elenco di parole cambi in modo significativo, è preferibile utilizzare normali rilevatori di dizionari personalizzati.
    • I rilevatori di dizionari personalizzati archiviati vengono generati da Sensitive Data Protection utilizzando grandi elenchi di parole o frasi archiviate in Cloud Storage o BigQuery. Utilizza rilevatori di dizionari personalizzati archiviati quando hai un lungo elenco di parole o frasi, fino a decine di milioni.
    • I rilevatori di espressioni regolari (regex) consentono a Sensitive Data Protection di rilevare le corrispondenze in base a un pattern di espressioni regolari.

Inoltre, Sensitive Data Protection include il concetto di regole di ispezione, che consentono di ottimizzare i risultati dell'analisi utilizzando quanto segue:

  • Le regole di esclusione consentono di ridurre il numero di risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.
  • Le regole hotword ti consentono di aumentare la quantità o modificare il valore di probabilità dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato.

Rilevatori infoType integrati

I rilevatori di infoType integrati sono integrati in Sensitive Data Protection e includono rilevatori di tipi di dati sensibili specifici di paesi o regioni, come il Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) in francese, il numero di patente di guida del Regno Unito (UK_DRIVERS_LICENSE_NUMBER) e i tipi di previdenza sociale degli Stati Uniti e i tipi di previdenza sociale degli Stati Uniti (US_SOCIAL_SECURITY_NUMBER). Includono anche vari tipi di dati applicabili a livello globale (ad esempio, numeri di carta di credito e diPERSON_NAMEPHONE_NUMBEREMAIL_ADDRESSCREDIT_CARD_NUMBER

L'elenco dei rilevatori infoType integrati viene sempre aggiornato. Per un elenco completo dei rilevatori infoType integrati attualmente supportati, consulta la documentazione di riferimento per i rilevatori infoType.

Puoi anche visualizzare un elenco completo di tutti i rilevatori infoType integrati chiamando il metodo infoTypes.list di Sensitive Data Protection.

I rilevatori infoType integrati non rappresentano un metodo di rilevamento preciso al 100%. Ad esempio, non possono garantire la conformità ai requisiti normativi. Devi decidere quali sono i dati sensibili e come proteggerli al meglio. Google consiglia di testare le impostazioni per assicurarti che la configurazione soddisfi i requisiti.

Rilevatori infoType personalizzati

Esistono tre tipi di rilevatori infoType personalizzati:

Inoltre, Sensitive Data Protection include regole di ispezione, che consentono di ottimizzare i risultati della scansione aggiungendo quanto segue ai rilevatori esistenti:

Rilevatori di dizionari personalizzati normali

Utilizza normali rilevatori di dizionari personalizzati per trovare una corrispondenza con un breve elenco di parole o frasi (fino a diverse decine di migliaia). Un normale dizionario personalizzato può fungere da rilevatore univoco.

I rilevatori di dizionari personalizzati sono utili quando vuoi cercare un elenco di parole o frasi che non sono facilmente individuabili da un'espressione regolare o da un rilevatore integrato. Ad esempio, supponi di voler cercare sale conferenze a cui si fa riferimento con i nomi delle sale a cui sono state assegnate, anziché con i numeri delle sale, come nomi di stati o regioni, punti di riferimento, personaggi fittizi e così via. Puoi creare un normale rilevatore di dizionari personalizzato che contenga un elenco di questi nomi. Sensitive Data Protection può analizzare i tuoi contenuti per ciascun nome di stanza e restituire una corrispondenza quando ne rileva uno nel contesto. Scopri di più su come Sensitive Data Protection abbina le parole e le frasi del dizionario nella sezione "Specifiche corrispondenti al dizionario" in Creazione di un rilevatore di dizionari personalizzati standard.

Per ulteriori dettagli sul funzionamento dei rilevatori infoType personalizzati dei dizionari standard, oltre ad esempi nella pratica, consulta la sezione Creazione di un rilevatore di dizionari personalizzati regolari.

Rilevatori di dizionari personalizzati archiviati

Utilizza rilevatori di dizionari personalizzati archiviati quando hai più di poche parole o frasi da scansionare o se il tuo elenco di parole o frasi cambia spesso. I rilevatori di dizionari personalizzati archiviati possono corrispondere a decine di milioni di parole o frasi.

I rilevatori di dizionari personalizzati archiviati, per loro natura come rilevatori di dizionari personalizzati molto grandi, sono creati in modo diverso sia dai rilevatori personalizzati delle espressioni regolari che dai normali rilevatori di dizionari personalizzati. Ogni dizionario personalizzato archiviato ha due componenti:

  • Un elenco di frasi create e definite da te. L'elenco viene archiviato come file di testo all'interno di Cloud Storage o come colonna in una tabella BigQuery.
  • I file di dizionario generati, creati da Sensitive Data Protection in base al tuo elenco di frasi. I file di dizionario sono archiviati in Cloud Storage e sono costituiti da una copia dei dati della frase di origine più filtri Bloom, che aiutano nella ricerca e nella corrispondenza. Non puoi modificare direttamente questi file.

Dopo aver creato un elenco di parole e aver utilizzato Sensitive Data Protection per generare un dizionario personalizzato, puoi avviare o pianificare una scansione utilizzando un rilevatore di dizionari personalizzato archiviato, in modo simile agli altri rilevatori infoType.

Per ulteriori dettagli sul funzionamento dei rilevatori di dizionari personalizzati archiviati, e per vedere alcuni esempi in azione, consulta la sezione Creazione di un rilevatore di dizionari personalizzati archiviati.

Espressioni regolari

Un rilevatore infoType personalizzato con espressioni regolari (regex) consente di creare rilevatori di infoType che consentono a Sensitive Data Protection di rilevare le corrispondenze in base a un pattern regex. Ad esempio, supponi di avere numeri di cartelle cliniche nel formato ###-#-#####. Puoi definire un pattern regex come il seguente:

[1-9]{3}-[1-9]{1}-[1-9]{5}

La protezione dei dati sensibili corrisponderà quindi a elementi come i seguenti:

123-4-56789

Puoi anche specificare una probabilità da assegnare a ogni corrispondenza infoType personalizzata. In altre parole, quando Sensitive Data Protection corrisponde alla sequenza specificata, verrà assegnata la probabilità che hai indicato. Questo è utile perché se la tua espressione regolare personalizzata definisce una sequenza abbastanza comune che potrebbe facilmente corrispondere ad altre sequenze casuali, non vuoi che Sensitive Data Protection etichetti ogni corrispondenza come VERY_LIKELY. In questo modo, si corrode l'affidabilità dei risultati dell'analisi e si può potenzialmente rendere anonimizzate le informazioni errate.

Per ulteriori informazioni sui rilevatori infoType personalizzati di espressione regolare e per vederli in azione, consulta Creazione di un rilevatore di espressioni regolari.

Regole di ispezioni

Puoi utilizzare le regole di ispezione per perfezionare i risultati restituiti dai rilevatori infoType esistenti, integrati o personalizzati. Le regole di ispezione possono essere utili nei casi in cui i risultati restituiti da Sensitive Data Protection devono essere migliorati in qualche modo, aggiungendo ed escludendo dal rilevatore di infoType esistente.

I due tipi di regole di ispezione sono:

  • Regole di esclusione
  • Regole hotword

Per ulteriori informazioni sulle regole di ispezione, consulta Modifica dei rilevatori InfoType per perfezionare i risultati della scansione.

Regole di esclusione

Le regole di esclusione consentono di ridurre la quantità o la precisione dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole di esclusione possono aiutarti a ridurre il rumore o altri risultati indesiderati restituiti da un rilevatore infoType.

Ad esempio, se scansioni un database alla ricerca di indirizzi email, puoi aggiungere una regola di esclusione sotto forma di regex personalizzata che indica alla protezione dei dati sensibili di escludere eventuali risultati che terminano con "@example.com".

Per ulteriori informazioni sulle regole di esclusione, consulta Modifica dei rilevatori InfoType per perfezionare i risultati della scansione.

Regole hotword

Le regole hotword consentono di aumentare la quantità o l'accuratezza dei risultati restituiti aggiungendo regole a un rilevatore infoType integrato o personalizzato. Le regole hotword possono aiutarti in modo efficace ad allentare le regole di un rilevatore infoType esistente.

Ad esempio, supponiamo che tu voglia eseguire la scansione di un database medico alla ricerca di nomi di pazienti. Puoi utilizzare il rilevatore infoType PERSON_NAME integrato di Sensitive Data Protection, ma in questo modo Sensitive Data Protection troverà corrispondenze per tutti i nomi delle persone, non solo quelli dei pazienti. Per risolvere il problema, puoi includere una regola hotword sotto forma di infoType personalizzato regex che cerca la parola "paziente" entro un determinato carattere di prossimità dal primo carattere delle potenziali corrispondenze. Puoi quindi assegnare ai risultati che corrispondono a questo modello una probabilità di "molto probabile", poiché corrispondono ai tuoi criteri speciali.

Per ulteriori informazioni sulle regole hotword, consulta Modifica dei rilevatori InfoType per perfezionare i risultati della scansione.