Analisi del rischio di reidentificazione

L'analisi del rischio di reidentificazione (o semplicemente analisi del rischio) è il processo di analisi dei dati sensibili per individuare le proprietà che potrebbero aumentare il rischio di identificazione dei soggetti o di rivelazione di informazioni sensibili su persone fisiche. Puoi utilizzare i metodi di analisi del rischio prima dell'anonimizzazione per contribuire a determinare una strategia di anonimizzazione efficace o dopo l'anonimizzazione per monitorare eventuali variazioni o valori anomali.

L'anonimizzazione è il processo di rimozione delle informazioni identificative dai dati. Sensitive Data Protection può rilevare e anonimizzare i dati sensibili per te in base a come lo hai configurato in conformità ai requisiti della tua organizzazione.

Al contrario, la riidentificazione è il processo di associazione dei dati anonimizzati ad altri dati disponibili per determinare la persona a cui appartengono. La reidentificazione viene spesso discussa nel contesto di informazioni personali sensibili, come dati medici o finanziari.

Per saperne di più sull'utilizzo di Sensitive Data Protection per misurare vari tipi di rischi, consulta Misurare il rischio di reidentificazione e divulgazione.

Termini e tecniche di analisi del rischio

Se non anonimizzi correttamente o in modo adeguato i dati sensibili, rischi che un malintenzionato riesca a identificarli di nuovo o a ottenere informazioni sensibili su persone fisiche, il che può avere gravi implicazioni per la privacy. Sensitive Data Protection può aiutarti a calcolare questo rischio in base a diverse metriche.

Prima di esaminare le metriche, definiamo alcuni termini comuni:

  • Identificatori: possono essere utilizzati per identificare in modo univoco un individuo. Ad esempio, il nome e cognome o il numero di identificazione emesso dall'autorità governativa di una persona sono considerati identificatori.
  • Quasi-identificatori: i quasi-identificatori non identificano in modo univoco un individuo, ma, se combinati e dotati di riferimenti incrociati con i record di un individuo, possono aumentare notevolmente la probabilità che un utente malintenzionato riesca a reidentificare un individuo. Ad esempio, i codici postali e le età sono considerati quasi identificatori.
  • Dati sensibili: i dati sensibili sono dati protetti dall'esposizione non autorizzata. In genere, attributi come condizioni cliniche, reddito, reati e posizione geografica sono considerati dati sensibili. Tieni presente che può esserci sovrapposizione tra identificatori e dati sensibili.
  • Classi di equivalenza: una classe di equivalenza è un gruppo di righe con quasi identificatori identici.

Sensitive Data Protection può utilizzare quattro tecniche per quantificare il livello di rischio associato a un set di dati:

  • k-anonymity: una proprietà di un set di dati che indica la reidentificabilità dei suoi record. Un set di dati è k-anonymous se i quasi-identificatori per ogni persona nel set di dati sono identici ad almeno k - 1 altre persone presenti nel set di dati.
  • L-diversity: un'estensione di k-anonymity che misura anche la diversità dei valori sensibili per ogni colonna in cui si presentano. Un set di dati ha l-diversity se, per ogni insieme di righe con quasi-identificatori identici, esistono almeno l valori distinti per ciascun attributo sensibile.
  • k-map: calcola il rischio di reidentificazione confrontando un determinato set di dati anonimizzati di soggetti con un set di dati di reidentificazione o "attacco" più grande. Sensitive Data Protection non conosce il set di dati sugli attacchi, ma lo modella statisticamente utilizzando dati disponibili pubblicamente come il censimento degli Stati Uniti, un modello statistico personalizzato (indicato come una o più tabelle BigQuery) o mediante la estrapolazione dalla distribuzione dei valori nel set di dati di input. Ogni set di dati, il set di dati di esempio e il set di dati di reidentificazione, condivide una o più colonne di quasi-identificatori.
  • Presenza delta (δ-presence): stima la probabilità che un determinato utente di una popolazione più ampia sia presente nel set di dati. Viene utilizzato quando l'appartenenza al set di dati è essa stessa un'informazioni sensibili. Analogamente alla mappatura k, la Protezione dei dati sensibili non conosce il set di dati sugli attacchi, ma lo modella statisticamente utilizzando dati disponibili pubblicamente, distribuzioni specificate dall'utente o estrapolazione dal set di dati di input.

Informazioni su k-anonymity

Quando si raccolgono dati a fini di ricerca, la spersonalizzazione può essere essenziale per contribuire a mantenere la privacy dei partecipanti. Allo stesso tempo, l'anonimizzazione potrebbe comportare la perdita dell'utilità pratica di un set di dati. L'anonimizzazione è stata creata dalla necessità sia di quantificare la reidentificabilità di un set di dati sia di bilanciare l'utilità dei dati anonimizzati delle persone e la privacy delle persone i cui dati vengono utilizzati. È una proprietà di un set di dati che può essere utilizzata per valutare la reidentificabilità dei record all'interno del set di dati.

Ad esempio, prendiamo un insieme di dati dei pazienti:

ID paziente Nome e cognome CAP Età Condizione
746572 John J. Jacobsen 98122 29 Cardiopatia
652978 Debra D. Dreb 98115 29 Diabete di tipo II
075321 Abraham A. Abernathy 98122 54 Cancro, fegato
339012 Karen K. Cracovia 98115 88 Cardiopatia
995212 William W. Wertheimer 98115 54 Asma

Questo set di dati contiene tutti e tre i tipi di dati descritti in precedenza: identificativi, quasi-identificatori e dati sensibili.

Se i dati sensibili, come le condizioni di salute, non sono mascherati o oscurati, un malintenzionato potrebbe potenzialmente utilizzare i quasi identificatori a cui è associato ciascuno, eseguire potenziali riferimenti incrociati con un altro set di dati contenente quasi identificatori simili e identificare nuovamente le persone a cui si applicano i dati sensibili.

Un set di dati viene detto k-anonymous se ogni combinazione di valori per le colonne demografiche nel set di dati appare per almeno k record diversi. Ricorda che un gruppo di righe con quasi-identificatori identici è chiamato "classe di equivalenza". Ad esempio, se hai anonimizzato i quasi-identificatori in modo da avere almeno quattro righe i cui valori dei quasi-identificatori sono identici, il valore di k-anonimità del set di dati è 4.

ID entità e calcolo di k-anonymity

Un'opzione importante inclusa da Sensitive Data Protection per il calcolo dell'anonimizzazione k è l'identificatore dell'entità (ID) facoltativo. Un ID entità consente di determinare con maggiore precisione l'anonimità k nello scenario comune in cui diverse righe del set di dati corrispondono allo stesso utente. In caso contrario, se ogni riga, indipendentemente dall'utente, viene conteggiata separatamente, il numero totale di utenti utilizzato per calcolare il valore di anonimizzazione k del set di dati viene aumentato artificialmente. Ciò rende imprecisi i valori di k-anonymity calcolati.

Considera il seguente semplice set di dati:

ID utente Codice postale
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Se non utilizzi un ID entità per indicare quando righe diverse appartengono allo stesso utente, il numero totale di utenti utilizzato per il calcolo dell'anonimizzazione k è 8, anche se il numero effettivo di utenti è 4. In questo set di dati, utilizzando metodi di calcolo tradizionali dell'anonimità k (senza un ID entità), 3 persone hanno un valore di anonimità k pari a 3 e 5 persone hanno un valore di anonimità k pari a 5, anche se nel database sono presenti solo 4 persone effettive.

L'utilizzo di un ID entità fa sì che Sensitive Data Protection consideri il multiset di codici postali a cui è associato un utente come un quasi-identificatore al momento del calcolo dell'anonimizzazione k. Nel caso del nostro esempio, esistono in realtà tre valori di quasi-identificatori "composti" perché esistono tre combinazioni distinte di quasi-identificatori assegnati agli utenti: 42000, il multiset di 17000 e 42000 e il multiset di 17000, 42000 e 42000. Corrispondono agli utenti come segue:

  • [42000] è associato a un utente univoco (01).
  • [17000, 42000] è associato a due utenti unici (02 e 04).
  • [17000, 42000, 42000] è associato a un utente unico (03).

Come puoi vedere, questo metodo tiene conto del fatto che gli utenti possono comparire più di una volta nel nostro database dei codici postali e li tratta di conseguenza durante il calcolo dell'anonimizzazione k.

Risorse per k-anonymity

Per ulteriori informazioni sull'anonimizzazione k, consulta Proteggere la privacy quando si divulgano informazioni: l'anonimizzazione k e la sua applicazione tramite generalizzazione e suppressione, di Pierangela Samarati e Latanya Sweeney del Data Privacy Lab dell'Università di Harvard.

Per scoprire come calcolare l'anonimizzazione k con Sensitive Data Protection, con o senza ID entità, consulta Calcolo di anonimizzazione k per un set di dati.

Informazioni sull'l-diversity

L'l-diversity è strettamente correlata a k-anonymity ed è stata creata per contribuire a risolvere la suscettibilità di un set di dati anonimizzato ad attacchi come:

  • Attacchi di omogeneità, in cui gli utenti malintenzionati prevedono valori sensibili per un insieme di dati anonimizzati con k elementi sfruttando l'omogeneità dei valori all'interno di un insieme di k record.
  • Attacchi basati su conoscenze di base, in cui gli utenti malintenzionati sfruttano le associazioni tra valori quasi identificatori che hanno un determinato attributo sensibile per restringere i possibili valori dell'attributo.

L'l-diversity tenta di misurare quanto un malintenzionato può scoprire sulle persone in termini di k-anonimità e classi di equivalenza (insiemi di righe con valori di quasi-identificatori identici). Un set di dati ha l-diversity se, per ogni classe di equivalenza, esistono almeno l valori univoci per ciascun attributo sensibile. Per ogni classe di equivalenza, quanti attributi sensibili sono presenti nel set di dati? Ad esempio, se l-diversity = 1, significa che tutti hanno lo stesso attributo sensibile, se l-diversity = 2, significa che tutti hanno uno dei due attributi sensibili e così via.

Risorse sull'l-diversity

Per ulteriori informazioni sulla diversità l, consulta Diversità l: privacy oltre l'anonimato k di Ashwin Machanavajjhala, Johannes Gerke e Daniel Kifer del Dipartimento di Scienze dell'Informatica dell'Università di Cornell.

Per scoprire come calcolare l-diversity con Sensitive Data Protection, consulta Calcolo di l-diversity per un set di dati.l

Informazioni sulla mappa k

La mappatura k è molto simile all'anonimità k, tranne per il fatto che presuppone che l'autore dell'attacco molto probabilmente non sappia chi è presente nel set di dati. Utilizza la mappatura k se il tuo set di dati è relativamente piccolo o se il livello di impegno necessario per la generalizzazione degli attributi sarebbe troppo elevato.

Come per l'anonimizzazione k, anche la mappatura k richiede di determinare quali colonne del database sono quasi-identificatori. In questo modo, stai indicando quali dati un malintenzionato utilizzerà molto probabilmente per identificare nuovamente i soggetti. Inoltre, il calcolo di un valore di mappa k richiede un set di dati di reidentificazione: una tabella più grande con cui confrontare le righe del set di dati originale.

Considera il seguente piccolo insieme di dati di esempio. Questi dati di esempio fanno parte di un database ipotetico più grande, raccolto da un sondaggio le cui risposte includevano informazioni sensibili.

Codice postale età
85535 79
60629 42

Prese singolarmente, queste informazioni sembrano essere uguali per entrambi i privati. Infatti, prendere in considerazione l'anonimità k per il set di dati più grande potrebbe portare all'affermazione che il soggetto corrispondente alla seconda riga è altamente identificabile. Tuttavia, se esegui il backup e prendi in considerazione i dati, ti renderai conto che non è così. In particolare, prendiamo in considerazione il codice postale 85535 degli Stati Uniti, dove attualmente vivono circa 20 persone. Probabilmente esiste una sola persona di esattamente 79 anni che vive nel codice postale 85535. Confrontalo con il codice postale 60629, che fa parte dell'area metropolitana di Chicago e ospita oltre 100.000 persone. In quel codice postale ci sono circa 1000 persone di età esatta di 42 anni.

La prima riga del nostro piccolo set di dati è stata facilmente identificata di nuovo, ma non la seconda. In base alla k-anonimità, tuttavia, entrambe le righe potrebbero essere completamente univoche nel set di dati più grande.

La mappatura k, come l'anonimizzazione k, richiede di determinare quali colonne del database sono quasi-identificatori. Le API di analisi del rischio di Sensitive Data Protection simulano un set di dati di reidentificazione per approssimare i passaggi che un malintenzionato potrebbe eseguire per confrontare il set di dati originale al fine di reidentificare i dati. Per il nostro esempio precedente, poiché si occupa di località degli Stati Uniti (codici postali) e dati personali (età) e poiché assumiamo che l'aggressore non sappia chi ha partecipato al sondaggio, il set di dati di reidentificazione potrebbe includere tutti i residenti negli Stati Uniti.

Ora che hai i quasi-identificatori e un set di dati per la reidentificazione, puoi calcolare il valore della mappatura k: i tuoi dati soddisfano la mappatura k con valore k se ogni combinazione di valori per i quasi-identificatori compare almeno k volte nel set di dati per la reidentificazione.

Data questa definizione e il fatto che la prima riga del nostro database probabilmente corrisponde solo a una persona negli Stati Uniti, il set di dati di esempio non soddisfa un requisito di valore della mappa k pari o superiore a 2. Per ottenere un valore della mappa k più elevato, potremmo rimuovere i valori di età come abbiamo fatto qui:

Codice postale età
85535 **
60629 **

Come accennato in precedenza, il codice postale 85535 ha circa 20 persone,mentre il codice 60629 ne ha oltre 100.000. Pertanto, possiamo stimare che questo nuovo set di dati generalizzato abbia un valore della mappa k di circa 20.

Risorse di mappe k

Per ulteriori informazioni sulla mappa k e sulla sua relazione con l'anonimato k, consulta Protecting Privacy Using k-Anonymity, di Khaled El Emam e Fida Kamal Dankar, nel Journal of the American Medical Informatics Association.

Per scoprire come calcolare le stime della mappa k con Sensitive Data Protection, consulta Calcolo della mappa k per un set di dati.

Informazioni su δ-presence

La presenza delta (δ-presence) stima il rischio associato a un malintenzionato che vuole scoprire se il suo target è nel set di dati. È leggermente diverso dal rischio di reidentificazione in quanto l'obiettivo non è trovare quale record esatto corrisponde a quale individuo, ma solo sapere se un individuo fa parte del set di dati. L'utilizzo di questa metrica è particolarmente appropriato se tutti gli individui nel set di dati condividono un attributo sensibile comune; ad esempio, hanno tutti la stessa diagnosi medica.

Come le altre metriche di rischio, la presenza di δ richiede di determinare quali colonne del database sono quasi identificatori. In questo modo, dichiari quali dati un malintenzionato utilizzerà con maggiore probabilità per scoprire quali persone sono presenti nel set di dati. Come per la mappa k, il calcolo di δ-presence richiede un set di dati di attacco: una tabella più grande con cui confrontare le righe del set di dati originale.

Considera il seguente piccolo insieme di dati di esempio. Questi dati di esempio fanno parte di un database ipotetico più grande di persone con una determinata malattia genetica.

Codice postale età
85942 72
85942 72
62083 53

Negli Stati Uniti, nel codice postale 85942 ci sono circa 2 persone di 72 anni e nel codice postale 62083 ci sono circa 5 persone di 53 anni. I primi due record non sono esattamente reidentificabili perché hanno entrambi gli stessi quasi-identificatori. Tuttavia, poiché solo due persone condividono questi quasi-identificatori nella popolazione più grande, un malintenzionato può dedurre che entrambe soffrono della stessa malattia genetica. Presenza-δ quantifica questo rischio specifico calcolando il rapporto tra le persone con determinati quasi-identificatori presenti nel set di dati.

La metrica δ-presenza, come le altre metriche di rischio, richiede di determinare quali colonne del database sono quasi identificatori. Come per la stima della mappa k, le API di analisi del rischio di Sensitive Data Protection simulano un set di dati sulla popolazione per aproximarsi al set di dati che un malintenzionato potrebbe utilizzare per scoprire chi è al suo interno. Per il nostro esempio precedente, poiché si occupa di località degli Stati Uniti (codici postali) e dati personali (età) e poiché assumiamo che l'aggressore non sappia chi ha la malattia genetica, questo set di dati sulla popolazione potrebbe riguardare tutti coloro che vivono negli Stati Uniti.

Ora che hai i quasi-identificatori e un set di dati per la reidentificazione, puoi calcolare il valore di presenza δ: i tuoi dati soddisfano la presenza δ con valore δ se ogni combinazione di valori per i quasi-identificatori compare al massimo δ * k volte nel set di dati, dove k è il numero totale di persone con questi valori di quasi-identificatori nel set di dati sulla popolazione. A differenza di k in k-anonimity o k-map, δ in δ-presence è un numero reale compreso tra 0 e 1.

Data questa definizione e il fatto che entrambe le persone di 72 anni con codice postale 85942 nella popolazione generale siano presenti anche nel nostro database, questo set di dati non soddisfa la presenza δ per nessun δ strettamente inferiore a 1. Per ottenere un valore δ-presenza inferiore, potremmo rimuovere il valore dell'età delle prime due righe:

Codice postale età
85942 **
85942 **
62083 53

Poiché 80 persone risiedono nel codice postale 85942, il valore δ per i primi due record è approssimativamente 2 / 80 = 2, 5%; e il valore δ per il terzo record è approssimativamente 1 / 5 = 20%. Pertanto, possiamo stimare che questo nuovo set di dati generalizzato abbia un valore di presenza δ pari a circa il 20%.

Risorse δ-presence

Per ulteriori informazioni sulla stima della presenza δ in base ai dati statistici, consulta Presenza δ senza conoscenza completa del mondo di Mehmet Ercan Nergiz e Chris Clifton del Dipartimento di scienza dell'informazione della Purdue University.

Per scoprire come calcolare le stime di δ-presence con Sensitive Data Protection, consulta Calcolo di δ-presence per un set di dati.