Misurazione del rischio di reidentificazione e divulgazione

L'analisi del rischio di reidentificazione, o semplicemente analisi del rischio, è il processo di analisi dei dati sensibili per trovare proprietà che potrebbero aumentare il rischio di identificazione dei soggetti. Puoi utilizzare i metodi di analisi del rischio prima dell'anonimizzazione per determinare una strategia di anonimizzazione efficace o dopo l'anonimizzazione per monitorare eventuali modifiche o anomalie.

Sensitive Data Protection può calcolare quattro metriche di rischio di reidentificazione: k-anonymity, l-diversity, k-map e efficace-presence. Se non hai dimestichezza con l'analisi del rischio o queste metriche, consulta l'argomento con il concetto di analisi del rischio prima di continuare.

Questa sezione fornisce panoramiche su come utilizzare Sensitive Data Protection per l'analisi del rischio dei dati strutturati utilizzando una di queste metriche, oltre ad altri argomenti correlati.

Calcolare il rischio di reidentificazione

Sensitive Data Protection può analizzare i dati strutturati archiviati nelle tabelle BigQuery e calcolare le seguenti metriche del rischio di reidentificazione. Per saperne di più, fai clic sul link della metrica da calcolare.

Metrica Descrizione
k-anonimato Una proprietà di un set di dati che indica la reidentificabilità dei suoi record. Un set di dati ha k-anonymity se i quasi-identificatori per ogni persona nel set di dati sono identici ad almeno k - 1 altre persone anche nel set di dati.
l-diversity Un'estensione di k-anonymity che misura inoltre la diversità dei valori sensibili per ogni colonna in cui si presentano. Un set di dati ha l-diversity se, per ogni insieme di righe con quasi-identificatori identici, esistono almeno l valori distinti per ciascun attributo sensibile.
k-map Calcola il rischio di reidentificazione confrontando un determinato set di dati anonimizzato di soggetti con un set di dati di reidentificazione più ampio (o "attacco").
Δ-presenza Valuta la probabilità che un determinato utente in una popolazione più ampia sia presente nel set di dati. Questo viene utilizzato quando l'appartenenza al set di dati è a sua volta informazioni sensibili.

Calcolare altre statistiche

Sensitive Data Protection può anche calcolare statistiche numeriche e categoriche per i dati archiviati nelle tabelle BigQuery utilizzando la stessa risorsa DlpJob delle API di analisi del rischio.

Metrica Descrizione
Statistiche numeriche Determina i valori minimo, massimo e quantile per una singola colonna BigQuery.
Statistiche numeriche categoriche Calcola le statistiche numeriche in categorie per i singoli bucket di istogrammi all'interno di una colonna BigQuery.

Per ulteriori informazioni, consulta Calcolo delle statistiche numeriche e categoriche.

Visualizza il rischio di reidentificazione

Puoi visualizzare le metriche di rischio calcolate da Sensitive Data Protection direttamente nella console Google Cloud utilizzando Sensitive Data Protection (k-anonymity o l-diversity) o utilizzando altri prodotti Google Cloud.

Prodotto Descrizione
Looker Studio Dopo aver calcolato i valori k-anonymity per un set di dati utilizzando la protezione dei dati sensibili, puoi visualizzare i risultati in Looker Studio. In questo modo, sarai anche in grado di comprendere meglio il rischio di reidentificazione e di valutare i compromessi in termini di utilità che potresti fare se oscurisci o anonimizzi i dati.