Cloud Data Loss Prevention (Cloud DLP) ora fa parte della protezione dei dati sensibili. Il nome dell'API rimane invariato: API Cloud Data Loss Prevention (API DLP). Per informazioni sui servizi che costituiscono la protezione dei dati sensibili, consulta la panoramica sulla protezione dei dati sensibili.

Tipi di file e modalità di scansione supportati

Tipi di file

La seguente tabella mostra i tipi di file supportati da Sensitive Data Protection, i limiti di scansione corrispondenti, le modalità di scansione e il supporto della trasformazione.

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi multimediali (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, Sensitive Data Protection esegue la scansione di un file .txt in modalità di testo normale, anche se è strutturato come file CSV, che normalmente viene scansionato in modalità di analisi strutturata.

Tipo di file	Estensioni dei file	Limiti	Modalità di scansione	Supporto per la trasformazione
`Apache Avro`	avro	Limiti Avro	Analisi strutturata
`Comma- or tab-separated values`	csv, tsv Nota: per analizzare un file CSV o TSV in modalità di analisi strutturata, assicurati che il delimitatore del file corrisponda alla relativa estensione del file. In altre parole, un file `.csv` deve essere delimitato da virgole e un file `.tsv` deve essere delimitato da tabulazioni.		Analisi strutturata	Anonimizza i contenuti
`PDF`	pdf	Limiti dei PDF	Analisi intelligente dei documenti
`Text`	asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lh, jsons		Testo normale	Anonimizza i contenuti
`Microsoft Word`	docx, dotx, docm, dotm	Limiti di parole	Analisi intelligente dei documenti
`Microsoft Excel`	xlsx, xlsm, xltx, xltm	Limiti di Excel	Analisi intelligente dei documenti
`Microsoft Powerpoint`	pptx, pptm, potx, potm	Limiti di PowerPoint	Analisi intelligente dei documenti
`Image`	bmp, gif, jpg, jpeg, jpe, png		OCR	Oscuramento
`Binary`	Tipi di file non supportati e immagini che non possono essere scansionati utilizzando il riconoscimento ottico dei caratteri (OCR).		Programma binario

Tipi di file non supportati in Cloud Storage

Se un file non viene riconosciuto durante una scansione dell'archiviazione, il sistema, per impostazione predefinita, lo analizza come file binario. Prova a convertire i contenuti in UTF_8 e poi li analizza come testo normale.

Se hai una raccolta di file che vuoi saltare perché Sensitive Data Protection non li supporta, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti ai byte analizzati per file

In generale, puoi limitare il numero di byte analizzati per file. Nella console Google Cloud, puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e di analisi intelligente. In altre parole, quando i seguenti tipi di file vengono analizzati in OCR o in modalità di analisi intelligente dei documenti, la protezione dei dati sensibili ignora le impostazioni applicate per limitare i byte scansionati per file.

Immagine
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Se analizzi questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce dettagli sulla posizione aggiuntivi nei risultati dell'ispezione.

Modalità di scansione	Note	Dettagli aggiuntivi sulla località da fornire
Programma binario	Se un file non può essere analizzato come qualsiasi altro tipo, verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento.
Analisi intelligente dei documenti	I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono scansionate utilizzando la tecnologia OCR nelle regioni che la supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.	`DocumentLocation`
Estrazione dei metadati	Oltre ai contenuti del file, verranno analizzati tutti i file analizzati da Cloud Storage: `metadata`.	`MetadataLocation`
Riconoscimento ottico dei caratteri (OCR)	Le immagini vengono scansionate tramite OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.	`ImageLocation`
Testo normale		Nessun dettaglio aggiuntivo
Analisi strutturata	Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni di intestazione per fornire il contesto. Esegue un'analisi su più righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare un indirizzo i cui componenti sono distribuiti su più colonne di una riga. I risultati della scansione contengono informazioni sulla struttura, ad esempio la riga che contiene il risultato e il nome della colonna. I risultati non superano i limiti di celle di una tabella.	`RecordLocation`

Scansione dei file strutturati in modalità di analisi strutturata

Quando scansioni un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di analizzare il file in modalità di scansione dell'analisi strutturata. Questa modalità di analisi ha una qualità di rilevamento superiore rispetto alla scansione binaria, in quanto la modalità di analisi strutturata cerca le correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, tra cui fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

Il file o l'intestazione sono danneggiati.
La configurazione del job di ispezione prevede limiti di dimensioni troppo ridotti, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent. Ad esempio, se il limite bytesLimitPerFile non è abbastanza grande da includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe analizzare il file in modalità di analisi binaria.

La selezione dei dati analizzati dipende dall'impostazione del campionamento per iniziare dall'inizio del file o da una posizione casuale.

Ad esempio, supponi di avere un file Avro con intestazioni di blocco da 50 kB e blocchi di dati da 2 MB. In generale, far partire il campione dall'alto consente di assicurarti che l'intestazione di blocco sia sempre inclusa nell'esempio preso in considerazione da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a quella di un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, aumentare le dimensioni del campione (specificate da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire il ripristino dell'ispezione alla modalità di analisi binaria.

Esempio: quando la dimensione di un campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione block. — Esempio: quando le dimensioni di un campione sono troppo piccole, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).