Anonimizzazione dei dati sensibili di Cloud Storage

Questa pagina descrive in che modo Sensitive Data Protection può creare copie anonimizzate dei dati archiviati in Cloud Storage. Vengono inoltre elencate le limitazioni di questa operazione e i punti da considerare prima di iniziare.

Per informazioni su come utilizzare Sensitive Data Protection per creare copie anonimizzate dei dati di Cloud Storage, consulta quanto segue:

Informazioni sull'anonimizzazione

L'anonimizzazione è il processo di rimozione delle informazioni identificative dai dati. Il suo obiettivo è consentire l'uso e la condivisione di informazioni personali, come informazioni sanitarie, finanziarie o demografiche, rispettando al contempo i requisiti della privacy. Per ulteriori informazioni sull'anonimizzazione, consulta Anonimizzazione dei dati sensibili.

Per informazioni più dettagliate sulle trasformazioni di anonimizzazione in Sensitive Data Protection, consulta il riferimento per la trasformazione. Per ulteriori informazioni su come Sensitive Data Protection oscura i dati sensibili nelle immagini, consulta Ispezione e oscuramento delle immagini.

Quando utilizzare questa funzionalità

Questa funzionalità è utile se i file che utilizzi nelle operazioni aziendali contengono dati sensibili, come le informazioni che consentono l'identificazione personale (PII). Questa funzionalità ti consente di utilizzare e condividere informazioni nell'ambito dei tuoi processi aziendali, mantenendo oscurati i dati sensibili.

Procedura di anonimizzazione

Questa sezione descrive la procedura di anonimizzazione in Sensitive Data Protection per i contenuti in Cloud Storage.

Per utilizzare questa funzionalità, crea un job di ispezione (DlpJob) configurato per creare copie anonimizzate dei file di Cloud Storage. Sensitive Data Protection esegue la scansione dei file nella posizione specificata, ispezzionandoli in base alla tua configurazione. Durante l'ispezione di ogni file, Sensitive Data Protection anonimizza i dati che corrispondono ai tuoi criteri per i dati sensibili e poi scrive i contenuti in un nuovo file. Il nuovo file ha sempre lo stesso nome del file originale. Memorizza questo nuovo file in una directory di output specificata. Se un file è incluso nella scansione, ma nessun dato corrisponde ai tuoi criteri di anonimizzazione e non sono presenti errori nella relativa elaborazione, il file viene copiato invariato nella directory di output.

La directory di output impostata deve trovarsi in un bucket Cloud Storage diverso da quello contenente i file di input. Nella directory di output, la funzionalità Protezione dei dati sensibili crea una struttura di file che rispecchia quella della directory di input.

Ad esempio, supponi di impostare le seguenti directory di input e output:

  • Directory di input: gs://input-bucket/folder1/folder1a
  • Directory di output: gs://output-bucket/output-directory

Durante l'anonimizzazione, Sensitive Data Protection archivia i file anonimizzati in gs://output-bucket/output-directory/folder1/folder1a.

Se nella directory di output esiste un file con lo stesso nome di un file anonimizzato, questo viene sovrascritto. Se non vuoi che i file esistenti vengano sovrascritti, modifica la directory di output prima di eseguire questa operazione. In alternativa, valuta la possibilità di abilitare il controllo delle versioni degli oggetti nel bucket di output.

Gli elenchi di controllo dell'accesso (ACL) a livello di file per i file originali vengono copiati nei nuovi file, indipendentemente dal fatto che siano stati trovati e anonimizzati dati sensibili. Tuttavia, se il bucket di output è configurato solo per le autorizzazioni uniformi a livello di bucket e non per le autorizzazioni granulari (a livello di oggetto), gli ACL non vengono copiati nei file anonimizzati.

Il seguente diagramma mostra il processo di anonimizzazione di quattro file archiviati in un bucket Cloud Storage. Ogni file viene copiato indipendentemente dal fatto che Sensitive Data Protection rilevi o meno dati sensibili. Ogni file copiato ha lo stesso nome dell'originale.

Anonimizzazione dei file archiviati in Cloud Storage.
Anonimazzione dei file archiviati in Cloud Storage (fai clic per ingrandire).

Prezzi

Per informazioni sui prezzi, consulta Ispezione e trasformazione dei dati in archiviazione.

Tipi di file supportati

Sensitive Data Protection può anonimizzare i seguenti gruppi di tipi di file:

  • CSV
  • Immagine
  • Testo
  • TSV

Comportamento di anonimizzazione predefinito

Se vuoi definire in che modo Sensitive Data Protection trasforma i risultati, puoi fornire modelli di anonimizzazione per i seguenti tipi di file:

  • File non strutturati, ad esempio file di testo con testo in formato libero
  • File strutturati, come i file CSV
  • Immagini

Se non fornisci un modello di anonimizzazione, Sensitive Data Protection trasforma i risultati come segue:

  • Nei file non strutturati e strutturati, Sensitive Data Protection sostituisce tutti i risultati con il relativo infoType, come descritto in Sostituzioni di infoType.
  • Nelle immagini, Sensitive Data Protection copre tutti i risultati con un riquadro nero.

Limitazioni e considerazioni

Tieni presente i seguenti punti prima di creare copie anonimizzate dei dati di Cloud Storage.

Spazio sul disco

Questa operazione supporta solo i contenuti archiviati in Cloud Storage.

Questa operazione crea una copia di ogni file durante l'ispezione di Sensitive Data Protection. Non modifica né rimuove i contenuti originali. I dati copiati occuperanno circa la stessa quantità di spazio su disco aggiuntivo dei dati originali.

Accesso in scrittura allo spazio di archiviazione

Poiché Sensitive Data Protection crea una copia dei file originali, l'agente di servizio del tuo progetto deve disporre dell'accesso in scrittura al bucket di output Cloud Storage.

Campionamento e impostazione di limiti di risultati

Questa operazione non supporta il campionamento. In particolare, non puoi limitare la quantità di ogni file che Sensitive Data Protection scansiona e anonimizza. In altre parole, se utilizzi l'API Cloud Data Loss Prevention, non puoi utilizzare bytesLimitPerFile e bytesLimitPerFilePercent nell'oggetto CloudStorageOptions di DlpJob.

Inoltre, non puoi controllare il numero massimo di risultati da restituire. Se utilizzi l'API DLP, non puoi impostare un oggetto FindingLimits in DlpJob.

Requisito di ispezione dei dati

Quando esegui il job di ispezione, Sensitive Data Protection ispeziona prima i dati, in base alla configurazione dell'ispezione, prima di eseguire la spersonalizzazione. Non può saltare la procedura di ispezione.

Requisito per l'utilizzo delle estensioni file

Sensitive Data Protection si basa sulle estensioni dei file per identificare i tipi di file nella directory di input. Potrebbe non essere possibile anonimizzare i file che non hanno estensioni, anche se sono di tipi supportati.

File ignorati

Durante l'anonimizzazione dei file archiviati, la funzionalità Protezione dei dati sensibili salta i seguenti file:

  • File di dimensioni superiori a 60.000 KB. Se hai file di grandi dimensioni che superano questo limite, ti consigliamo di suddividerli in blocchi più piccoli.
  • File di tipi non supportati. Per un elenco dei tipi di file supportati, consulta Tipi di file supportati in questa pagina.
  • Tipi di file che hai escluso intenzionalmente dalla configurazione di anonimizzazione. Se utilizzi l'API DLP, i tipi di file esclusi dal campo file_types_to_transform dell'azione Deidentify di DlpJob vengono ignorati.
  • File in cui si sono verificati errori di trasformazione.

Ordine delle righe di output nelle tabelle anonimizzate

Non è garantito che l'ordine delle righe in una tabella anonimizzata corrisponda all'ordine delle righe nella tabella originale. Se vuoi confrontare la tabella originale con la tabella anonimizzata, non puoi fare affidamento sul numero di riga per identificare le righe corrispondenti. Se intendi confrontare le righe delle tabelle, devi utilizzare un identificatore univoco per identificare ogni record.

Chiavi temporanee

Se scegli un metodo crittografico come metodo di trasformazione, devi prima creare una chiave con wrapping utilizzando Cloud Key Management Service. Poi, fornisci la chiave nel tuo modello di anonimizzazione. Le chiavi temporanee (non elaborate) non sono supportate.

Passaggi successivi