Tipi di file
La seguente tabella mostra i tipi di file supportati da Sensitive Data Protection, i limiti di scansione corrispondenti, le modalità di scansione e il supporto della trasformazione.
Sensitive Data Protection si basa sulle estensioni dei file e sui tipi multimediali (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, Sensitive Data Protection esegue la scansione di un file .txt
in modalità di testo normale, anche se è strutturato come file CSV, che normalmente viene scansionato in modalità di analisi strutturata.
Tipo di file | Estensioni dei file | Limiti | Modalità di scansione | Supporto per la trasformazione |
---|---|---|---|---|
Apache Avro |
avro |
Limiti Avro | Analisi strutturata | |
Comma- or tab-separated values | csv, tsv | Analisi strutturata | Anonimizza i contenuti | |
PDF |
Limiti dei PDF | Analisi intelligente dei documenti | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lh, jsons |
Testo normale | Anonimizza i contenuti | |
Microsoft Word |
docx, dotx, docm, dotm |
Limiti di parole | Analisi intelligente dei documenti | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Limiti di Excel | Analisi intelligente dei documenti | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Limiti di PowerPoint | Analisi intelligente dei documenti | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Oscuramento | |
Binary |
Tipi di file non supportati e immagini che non possono essere scansionati utilizzando il riconoscimento ottico dei caratteri (OCR). |
Programma binario |
Tipi di file non supportati in Cloud Storage
Se un file non viene riconosciuto durante una scansione dell'archiviazione, il sistema, per impostazione predefinita, lo analizza come file binario. Prova a convertire i contenuti in UTF_8 e poi li analizza come testo normale.
Se hai una raccolta di file che vuoi saltare perché Sensitive Data Protection non li supporta, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limiti ai byte analizzati per file
In generale, puoi limitare il numero di byte analizzati per file. Nella console Google Cloud, puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file
o bytesLimitPerFilePercent
.
Il campionamento non è supportato nelle modalità OCR e di analisi intelligente. In altre parole, quando i seguenti tipi di file vengono analizzati in OCR o in modalità di analisi intelligente dei documenti, la protezione dei dati sensibili ignora le impostazioni applicate per limitare i byte scansionati per file.
- Immagine
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Se analizzi questi file in modalità binaria, si applicano i limiti.
Modalità di scansione
Ogni modalità di scansione fornisce dettagli sulla posizione aggiuntivi nei risultati dell'ispezione.
Modalità di scansione | Note | Dettagli aggiuntivi sulla località da fornire |
---|---|---|
Programma binario | Se un file non può essere analizzato come qualsiasi altro tipo, verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento. |
|
Analisi intelligente dei documenti | I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono scansionate utilizzando la tecnologia OCR nelle regioni che la supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari. |
DocumentLocation |
Estrazione dei metadati | Oltre ai contenuti del file, verranno analizzati tutti i file analizzati da Cloud Storage: |
MetadataLocation |
Riconoscimento ottico dei caratteri (OCR) | Le immagini vengono scansionate tramite OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari. |
ImageLocation |
Testo normale | Nessun dettaglio aggiuntivo | |
Analisi strutturata | Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni di intestazione per fornire il contesto. Esegue un'analisi su più righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare un indirizzo i cui componenti sono distribuiti su più colonne di una riga. I risultati della scansione contengono informazioni sulla struttura, ad esempio la riga che contiene il risultato e il nome della colonna. I risultati non superano i limiti di celle di una tabella. |
RecordLocation |
Scansione dei file strutturati in modalità di analisi strutturata
Quando scansioni un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di analizzare il file in modalità di scansione dell'analisi strutturata. Questa modalità di analisi ha una qualità di rilevamento superiore rispetto alla scansione binaria, in quanto la modalità di analisi strutturata cerca le correlazioni tra righe e colonne nei dati strutturati.
I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, tra cui fieldId
.
Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:
- Il file o l'intestazione sono danneggiati.
- La configurazione del job di ispezione prevede limiti di dimensioni troppo ridotti, ad esempio
bytesLimitPerFile
ebytesLimitPerFilePercent
. Ad esempio, se il limitebytesLimitPerFile
non è abbastanza grande da includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe analizzare il file in modalità di analisi binaria.
La selezione dei dati analizzati dipende dall'impostazione del campionamento per iniziare dall'inizio del file o da una posizione casuale.
Ad esempio, supponi di avere un file Avro con intestazioni di blocco da 50 kB e blocchi di dati da 2 MB. In generale, far partire il campione dall'alto consente di assicurarti che l'intestazione di blocco sia sempre inclusa nell'esempio preso in considerazione da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a quella di un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio,
aumentare le dimensioni del campione (specificate da bytesLimitPerFile
o
bytesLimitPerFilePercent
) a 2,05 MB contribuisce a impedire il ripristino dell'ispezione alla modalità di analisi binaria.