Anonimizzazione dei dati sensibili di Cloud Storage

Questa pagina descrive in che modo Sensitive Data Protection può creare copie anonimizzate dei dati archiviati in Cloud Storage. Elenca inoltre i limiti di questa operazione e i punti da considerare prima di iniziare.

Per informazioni su come utilizzare Sensitive Data Protection per creare copie anonimizzate dei tuoi dati Cloud Storage, consulta quanto segue:

Informazioni sull'anonimizzazione

L'anonimizzazione è il processo di rimozione delle informazioni identificative dai dati. Il suo obiettivo è consentire l'utilizzo e la condivisione di informazioni personali, come dati sanitari, finanziari o demografici, rispettando al contempo i requisiti di privacy. Per ulteriori informazioni sull'anonimizzazione, consulta Anonimizzazione dei dati sensibili.

Per informazioni più approfondite sulle trasformazioni di anonimizzazione in Sensitive Data Protection, consulta Riferimento per la trasformazione. Per saperne di più su come Sensitive Data Protection oscura i dati sensibili nelle immagini, consulta Ispezione e oscuramento delle immagini.

Quando utilizzare questa funzione

Questa funzionalità è utile se i file che utilizzi nelle operazioni aziendali contengono dati sensibili, come informazioni che consentono l'identificazione personale (PII). Questa funzionalità ti consente di utilizzare e condividere informazioni come parte dei tuoi processi aziendali, mantenendo al contempo coperti dati sensibili.

Processo di anonimizzazione

Questa sezione descrive il processo di anonimizzazione in Sensitive Data Protection per i contenuti in Cloud Storage.

Per utilizzare questa funzionalità, crea un job di ispezione (DlpJob) configurato per creare copie anonimizzate dei file Cloud Storage. Sensitive Data Protection scansiona i file nel percorso specificato, ispezionandoli in base alla tua configurazione. Mentre esamina ogni file, Sensitive Data Protection anonimizza tutti i dati che corrispondono ai tuoi criteri per i dati sensibili e quindi scrive i contenuti in un nuovo file. Il nuovo file avrà sempre lo stesso nome del file originale. Archivia questo nuovo file in una directory di output da te specificata. Se un file è incluso nella scansione, ma nessun dato corrisponde ai criteri di anonimizzazione e non si verificano errori nell'elaborazione, il file viene copiato nella directory di output inalterato.

La directory di output che imposti deve trovarsi in un bucket Cloud Storage diverso dal bucket che contiene i file di input. Nella directory di output, Sensitive Data Protection crea una struttura di file che rispecchia la struttura dei file della directory di input.

Ad esempio, supponi di impostare le seguenti directory di input e output:

  • Directory di input: gs://input-bucket/folder1/folder1a
  • Directory di output: gs://output-bucket/output-directory

Durante l'anonimizzazione, Sensitive Data Protection archivia i file anonimizzati in gs://output-bucket/output-directory/folder1/folder1a.

Se nella directory di output esiste un file con lo stesso nome file di un file anonimizzato, il file viene sovrascritto. Se non vuoi che i file esistenti vengano sovrascritti, modifica la directory di output prima di eseguire questa operazione. In alternativa, potresti abilitare il controllo delle versioni degli oggetti sul bucket di output.

Gli elenchi di controllo dell'accesso (ACL) a livello di file per i file originali vengono copiati nei nuovi file, indipendentemente dal fatto che i dati sensibili siano stati trovati e anonimizzati. Tuttavia, se il bucket di output è configurato solo per le autorizzazioni uniformi a livello di bucket e non per autorizzazioni granulari (a livello di oggetto), gli ACL non vengono copiati nei file anonimizzati.

Il seguente diagramma mostra il processo di anonimizzazione per quattro file archiviati in un bucket Cloud Storage. Ogni file viene copiato indipendentemente dal fatto che Sensitive Data Protection rilevi dati sensibili. Ogni file copiato ha lo stesso nome dell'originale.

Anonimizzazione dei file archiviati in Cloud Storage.
Anonimizzazione dei file archiviati in Cloud Storage (fai clic per ingrandire).

Prezzi

Per informazioni sui prezzi, consulta Ispezione e trasformazione dei dati nello spazio di archiviazione.

Tipi di file supportati

Sensitive Data Protection può anonimizzare i seguenti gruppi di tipi di file:

  • CSV
  • Image
  • Testo
  • TSV

Comportamento di anonimizzazione predefinito

Se vuoi definire il modo in cui Sensitive Data Protection trasforma i risultati, puoi fornire modelli di anonimizzazione per i seguenti tipi di file:

  • File non strutturati, come file di testo con testo in formato libero
  • File strutturati, come i file CSV
  • Immagini

Se non fornisci un modello di anonimizzazione, Sensitive Data Protection trasforma i risultati come segue:

  • Nei file non strutturati e strutturati, Sensitive Data Protection sostituisce tutti i risultati con l'infoType corrispondente, come descritto in Sostituzione di InfoType.
  • Nelle immagini, Sensitive Data Protection copre tutti i risultati con una casella nera.

Limitazioni e considerazioni

Considera i seguenti punti prima di creare copie anonimizzate dei dati di Cloud Storage.

Spazio sul disco

Questa operazione supporta solo i contenuti archiviati in Cloud Storage.

Questa operazione crea una copia di ogni file mentre Sensitive Data Protection lo esamina. Non modifica né rimuove i contenuti originali. I dati copiati occuperanno all'incirca la stessa quantità di spazio aggiuntivo su disco dei dati originali.

Accesso in scrittura allo spazio di archiviazione

Poiché Sensitive Data Protection crea una copia dei file originali, l'agente di servizio del tuo progetto deve avere accesso in scrittura al bucket di output di Cloud Storage.

Campionamento e impostazione dei limiti di ricerca

Questa operazione non supporta il campionamento. Nello specifico, non puoi limitare la quantità di file di Sensitive Data Protection scansiona e anonimizza. Ciò significa che se utilizzi l'API Cloud Data Loss Prevention, non puoi utilizzare bytesLimitPerFile e bytesLimitPerFilePercent nell'oggetto CloudStorageOptions del tuo DlpJob.

Inoltre, non puoi controllare il numero massimo di risultati da restituire. Se utilizzi l'API DLP, non puoi impostare un oggetto FindingLimits in DlpJob.

Requisito di ispezione dei dati

Durante l'esecuzione del job di ispezione, Sensitive Data Protection esamina i dati in base alla configurazione di ispezione prima di eseguire l'anonimizzazione. Non può saltare il processo di ispezione.

Requisito per l'utilizzo delle estensioni dei file

Sensitive Data Protection si basa sulle estensioni dei file per identificare i tipi di file nella directory di input. Potrebbe non anonimizzare i file che non hanno un'estensione file, anche se si tratta di tipi supportati.

File ignorati

Quando anonimizza i file nello spazio di archiviazione, Sensitive Data Protection ignora i seguenti file:

  • File che superano i 60.000 kB. Se hai file di grandi dimensioni che superano questo limite, valuta la possibilità di suddividerli in parti più piccole.
  • File di tipi non supportati. Per un elenco dei tipi di file supportati, vedi Tipi di file supportati in questa pagina.
  • Tipi di file che hai volutamente escluso dalla configurazione di anonimizzazione. Se utilizzi l'API DLP, i tipi di file che hai escluso dal campo file_types_to_transform dell'azione Deidentify di DlpJob vengono ignorati.
  • File su cui si sono verificati errori di trasformazione.

Ordine delle righe di output nelle tabelle anonimizzate

Non è garantito che l'ordine delle righe in una tabella anonimizzata corrisponda all'ordine delle righe nella tabella originale. Se vuoi confrontare la tabella originale con la tabella anonimizzata, non puoi fare affidamento sul numero di riga per identificare le righe corrispondenti. Se intendi confrontare le righe delle tabelle, devi utilizzare un identificatore univoco per identificare ogni record.

Tasti temporanei

Se scegli un metodo di crittografia come metodo di trasformazione, devi prima creare una chiave con wrapping utilizzando Cloud Key Management Service. Fornisci quindi la chiave nel modello di anonimizzazione. Le chiavi temporanee (non elaborate) non sono supportate.

Passaggi successivi