Tipi di file e modalità di scansione supportati

Tipi di file

La seguente tabella mostra i tipi di file supportati da Sensitive Data Protection, i limiti di scansione corrispondenti, le modalità di scansione e il supporto della trasformazione.

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi multimediali (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, Sensitive Data Protection esegue la scansione di un file .txt in modalità di testo normale, anche se è strutturato come file CSV, che normalmente viene scansionato in modalità di analisi strutturata.

Tipo di file Estensioni dei file Limiti Modalità di scansione Supporto per la trasformazione
Apache Avro

avro

Limiti Avro Analisi strutturata
Comma- or tab-separated values

csv, tsv

Analisi strutturata Anonimizza i contenuti
PDF

pdf

Limiti dei PDF Analisi intelligente dei documenti
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lh, jsons

Testo normale Anonimizza i contenuti
Microsoft Word

docx, dotx, docm, dotm

Limiti di parole Analisi intelligente dei documenti
Microsoft Excel

xlsx, xlsm, xltx, xltm

Limiti di Excel Analisi intelligente dei documenti
Microsoft Powerpoint

pptx, pptm, potx, potm

Limiti di PowerPoint Analisi intelligente dei documenti
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Oscuramento
Binary

Tipi di file non supportati e immagini che non possono essere scansionati utilizzando il riconoscimento ottico dei caratteri (OCR).

Programma binario

Tipi di file non supportati in Cloud Storage

Se un file non viene riconosciuto durante una scansione dell'archiviazione, il sistema, per impostazione predefinita, lo analizza come file binario. Prova a convertire i contenuti in UTF_8 e poi li analizza come testo normale.

Se hai una raccolta di file che vuoi saltare perché Sensitive Data Protection non li supporta, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti ai byte analizzati per file

In generale, puoi limitare il numero di byte analizzati per file. Nella console Google Cloud, puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e di analisi intelligente. In altre parole, quando i seguenti tipi di file vengono analizzati in OCR o in modalità di analisi intelligente dei documenti, la protezione dei dati sensibili ignora le impostazioni applicate per limitare i byte scansionati per file.

  • Immagine
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se analizzi questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce dettagli sulla posizione aggiuntivi nei risultati dell'ispezione.

Modalità di scansione Note Dettagli aggiuntivi sulla località da fornire
Programma binario

Se un file non può essere analizzato come qualsiasi altro tipo, verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento.

Analisi intelligente dei documenti

I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono scansionate utilizzando la tecnologia OCR nelle regioni che la supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.

DocumentLocation
Estrazione dei metadati

Oltre ai contenuti del file, verranno analizzati tutti i file analizzati da Cloud Storage: metadata.

MetadataLocation
Riconoscimento ottico dei caratteri (OCR)

Le immagini vengono scansionate tramite OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.

ImageLocation
Testo normale

Nessun dettaglio aggiuntivo
Analisi strutturata

Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni di intestazione per fornire il contesto. Esegue un'analisi su più righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare un indirizzo i cui componenti sono distribuiti su più colonne di una riga.

I risultati della scansione contengono informazioni sulla struttura, ad esempio la riga che contiene il risultato e il nome della colonna.

I risultati non superano i limiti di celle di una tabella.

RecordLocation

Scansione dei file strutturati in modalità di analisi strutturata

Quando scansioni un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di analizzare il file in modalità di scansione dell'analisi strutturata. Questa modalità di analisi ha una qualità di rilevamento superiore rispetto alla scansione binaria, in quanto la modalità di analisi strutturata cerca le correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, tra cui fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

  • Il file o l'intestazione sono danneggiati.
  • La configurazione del job di ispezione prevede limiti di dimensioni troppo ridotti, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent. Ad esempio, se il limite bytesLimitPerFile non è abbastanza grande da includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe analizzare il file in modalità di analisi binaria.

La selezione dei dati analizzati dipende dall'impostazione del campionamento per iniziare dall'inizio del file o da una posizione casuale.

Ad esempio, supponi di avere un file Avro con intestazioni di blocco da 50 kB e blocchi di dati da 2 MB. In generale, far partire il campione dall'alto consente di assicurarti che l'intestazione di blocco sia sempre inclusa nell'esempio preso in considerazione da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a quella di un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, aumentare le dimensioni del campione (specificate da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire il ripristino dell'ispezione alla modalità di analisi binaria.

Esempio: quando la dimensione di un campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione block.
Esempio: quando le dimensioni di un campione sono troppo piccole, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).