Questa pagina descrive in che modo Sensitive Data Protection può creare copie anonimizzate dei dati archiviati in Cloud Storage. Vengono inoltre elencate le limitazioni di questa operazione e i punti da considerare prima di iniziare.
Per informazioni su come utilizzare Sensitive Data Protection per creare copie anonimizzate dei dati di Cloud Storage, consulta quanto segue:
- Crea copie anonimizzate dei dati archiviati in Cloud Storage utilizzando la console Google Cloud
- Creare copie anonimizzate dei dati archiviati in Cloud Storage utilizzando l'API
Informazioni sull'anonimizzazione
L'anonimizzazione è il processo di rimozione delle informazioni identificative dai dati. Il suo obiettivo è consentire l'uso e la condivisione di informazioni personali, come informazioni sanitarie, finanziarie o demografiche, rispettando al contempo i requisiti della privacy. Per ulteriori informazioni sull'anonimizzazione, consulta Anonimizzazione dei dati sensibili.
Per informazioni più dettagliate sulle trasformazioni di anonimizzazione in Sensitive Data Protection, consulta il riferimento per la trasformazione. Per ulteriori informazioni su come Sensitive Data Protection oscura i dati sensibili nelle immagini, consulta Ispezione e oscuramento delle immagini.
Quando utilizzare questa funzionalità
Questa funzionalità è utile se i file che utilizzi nelle operazioni aziendali contengono dati sensibili, come le informazioni che consentono l'identificazione personale (PII). Questa funzionalità ti consente di utilizzare e condividere informazioni nell'ambito dei tuoi processi aziendali, mantenendo oscurati i dati sensibili.
Procedura di anonimizzazione
Questa sezione descrive la procedura di anonimizzazione in Sensitive Data Protection per i contenuti in Cloud Storage.
Per utilizzare questa funzionalità, crea un job di ispezione (DlpJob
) configurato per creare copie anonimizzate dei file di Cloud Storage.
Sensitive Data Protection esegue la scansione dei file nella posizione specificata, ispezzionandoli in base alla tua configurazione. Durante l'ispezione di ogni file, Sensitive Data Protection anonimizza i dati che corrispondono ai tuoi criteri per i dati sensibili e poi scrive i contenuti in un nuovo file. Il nuovo file ha sempre lo stesso nome del file originale.
Memorizza questo nuovo file in una directory di output specificata. Se un file è incluso nella scansione, ma nessun dato corrisponde ai tuoi criteri di anonimizzazione e non sono presenti errori nella relativa elaborazione, il file viene copiato invariato nella directory di output.
La directory di output impostata deve trovarsi in un bucket Cloud Storage diverso da quello contenente i file di input. Nella directory di output, la funzionalità Protezione dei dati sensibili crea una struttura di file che rispecchia quella della directory di input.
Ad esempio, supponi di impostare le seguenti directory di input e output:
- Directory di input:
gs://input-bucket/folder1/folder1a
- Directory di output:
gs://output-bucket/output-directory
Durante l'anonimizzazione, Sensitive Data Protection archivia i file anonimizzati
in gs://output-bucket/output-directory/folder1/folder1a
.
Se nella directory di output esiste un file con lo stesso nome di un file anonimizzato, questo viene sovrascritto. Se non vuoi che i file esistenti vengano sovrascritti, modifica la directory di output prima di eseguire questa operazione. In alternativa, valuta la possibilità di abilitare il controllo delle versioni degli oggetti nel bucket di output.
Gli elenchi di controllo dell'accesso (ACL) a livello di file per i file originali vengono copiati nei nuovi file, indipendentemente dal fatto che siano stati trovati e anonimizzati dati sensibili. Tuttavia, se il bucket di output è configurato solo per le autorizzazioni uniformi a livello di bucket e non per le autorizzazioni granulari (a livello di oggetto), gli ACL non vengono copiati nei file anonimizzati.
Il seguente diagramma mostra il processo di anonimizzazione di quattro file archiviati in un bucket Cloud Storage. Ogni file viene copiato indipendentemente dal fatto che Sensitive Data Protection rilevi o meno dati sensibili. Ogni file copiato ha lo stesso nome dell'originale.
Prezzi
Per informazioni sui prezzi, consulta Ispezione e trasformazione dei dati in archiviazione.
Tipi di file supportati
Sensitive Data Protection può anonimizzare i seguenti gruppi di tipi di file:
- CSV
- Immagine
- Testo
- TSV
Comportamento di anonimizzazione predefinito
Se vuoi definire in che modo Sensitive Data Protection trasforma i risultati, puoi fornire modelli di anonimizzazione per i seguenti tipi di file:
- File non strutturati, ad esempio file di testo con testo in formato libero
- File strutturati, come i file CSV
- Immagini
Se non fornisci un modello di anonimizzazione, Sensitive Data Protection trasforma i risultati come segue:
- Nei file non strutturati e strutturati, Sensitive Data Protection sostituisce tutti i risultati con il relativo infoType, come descritto in Sostituzioni di infoType.
- Nelle immagini, Sensitive Data Protection copre tutti i risultati con un riquadro nero.
Limitazioni e considerazioni
Tieni presente i seguenti punti prima di creare copie anonimizzate dei dati di Cloud Storage.
Spazio sul disco
Questa operazione supporta solo i contenuti archiviati in Cloud Storage.
Questa operazione crea una copia di ogni file durante l'ispezione di Sensitive Data Protection. Non modifica né rimuove i contenuti originali. I dati copiati occuperanno circa la stessa quantità di spazio su disco aggiuntivo dei dati originali.
Accesso in scrittura allo spazio di archiviazione
Poiché Sensitive Data Protection crea una copia dei file originali, l'agente di servizio del tuo progetto deve disporre dell'accesso in scrittura al bucket di output Cloud Storage.
Campionamento e impostazione di limiti di risultati
Questa operazione non supporta il campionamento. In particolare, non puoi limitare la quantità di ogni file che Sensitive Data Protection scansiona e anonimizza. In altre parole, se utilizzi l'API Cloud Data Loss Prevention, non puoi utilizzare bytesLimitPerFile
e bytesLimitPerFilePercent
nell'oggetto CloudStorageOptions
di DlpJob
.
Inoltre, non puoi controllare il numero massimo di risultati da restituire.
Se utilizzi l'API DLP, non puoi impostare un oggetto FindingLimits
in DlpJob
.
Requisito di ispezione dei dati
Quando esegui il job di ispezione, Sensitive Data Protection ispeziona prima i dati, in base alla configurazione dell'ispezione, prima di eseguire la spersonalizzazione. Non può saltare la procedura di ispezione.
Requisito per l'utilizzo delle estensioni file
Sensitive Data Protection si basa sulle estensioni dei file per identificare i tipi di file nella directory di input. Potrebbe non essere possibile anonimizzare i file che non hanno estensioni, anche se sono di tipi supportati.
File ignorati
Durante l'anonimizzazione dei file archiviati, la funzionalità Protezione dei dati sensibili salta i seguenti file:
- File di dimensioni superiori a 60.000 KB. Se hai file di grandi dimensioni che superano questo limite, ti consigliamo di suddividerli in blocchi più piccoli.
- File di tipi non supportati. Per un elenco dei tipi di file supportati, consulta Tipi di file supportati in questa pagina.
- Tipi di file che hai escluso intenzionalmente dalla configurazione di anonimizzazione. Se utilizzi l'API DLP, i tipi di file esclusi dal campo
file_types_to_transform
dell'azioneDeidentify
diDlpJob
vengono ignorati. - File in cui si sono verificati errori di trasformazione.
Ordine delle righe di output nelle tabelle anonimizzate
Non è garantito che l'ordine delle righe in una tabella anonimizzata corrisponda all'ordine delle righe nella tabella originale. Se vuoi confrontare la tabella originale con la tabella anonimizzata, non puoi fare affidamento sul numero di riga per identificare le righe corrispondenti. Se intendi confrontare le righe delle tabelle, devi utilizzare un identificatore univoco per identificare ogni record.
Chiavi temporanee
Se scegli un metodo crittografico come metodo di trasformazione, devi prima creare una chiave con wrapping utilizzando Cloud Key Management Service. Poi, fornisci la chiave nel tuo modello di anonimizzazione. Le chiavi temporanee (non elaborate) non sono supportate.
Passaggi successivi
- Scopri come anonimizzare i dati sensibili archiviati in Cloud Storage utilizzando l'API DLP.
- Scopri come anonimizzare i dati sensibili archiviati in Cloud Storage utilizzando la console Google Cloud.
- Segui il codelab Creare una copia anonimizzata dei dati in Cloud Storage.
- Scopri come controllare lo spazio di archiviazione per rilevare dati sensibili.