Tipi di file e modalità di scansione supportati

Tipi di file

La seguente tabella mostra i tipi di file supportati da Sensitive Data Protection, i relativi limiti di scansione, le modalità di scansione e il supporto della trasformazione.

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di contenuti multimediali (MIME) per identificare i tipi di file da analizzare e le modalità di analisi da applicare. Ad esempio, la funzionalità Protezione dei dati sensibili esegue la scansione di un file .txt in modalità di testo normale, anche se il file è strutturato come file CSV, che in genere viene esaminato in modalità di analisi strutturata.

Tipo di file Estensioni dei file Limiti Modalità di scansione Assistenza per la trasformazione
Apache Avro

avro

Limiti di Avro Analisi strutturata
Comma- or tab-separated values

csv, tsv

Analisi strutturata Anonimizza i contenuti
PDF

pdf

Limiti per i PDF Analisi intelligente dei documenti
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

Testo normale Anonimizza i contenuti
Microsoft Word

docx, dotx, docm, dotm

Limiti di parole Analisi intelligente dei documenti
Microsoft Excel

xlsx, xlsm, xltx, xltm

Limiti di Excel Analisi intelligente dei documenti
Microsoft Powerpoint

pptx, pptm, potx, potm

Limiti di PowerPoint Analisi intelligente dei documenti
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Oscuramento
Binary

Tipi di file non supportati e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR).

Binario

Cluster di file

La tabella seguente mostra i gruppi di file supportati da Sensitive Data Protection durante la creazione di profili di dati sensibili. Un profilo dati dell'archivio file fornisce punteggi di sensibilità e rischio dati per ogni raccolta di file simili.

I file possono spostarsi tra i cluster di file man mano che Sensitive Data Protection aggiunge il supporto per più tipi di file. Con l'espansione del supporto della scansione, il servizio di rilevamento potrebbe iniziare a eseguire la scansione di file che in precedenza non erano stati analizzati. La fatturazione viene effettuata come descritto in Prezzi per il rilevamento.

Tipo di file Estensioni dei file Limiti Modalità di scansione
Text

asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd

Testo normale
Source Code

bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs

Testo normale
Structured Data

avro, csv, tsv, proto

Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto
Rich Documents

doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf

Vengono analizzati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB. Analisi intelligente dei documenti
Images

bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp

Le immagini supportate bmp, gif, jpg, jpeg, jpe, png di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che lo supportano. Al di fuori di queste regioni, le immagini non vengono scansionate. OCR
Executables

ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm

Non è stata eseguita la scansione
Archives

zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 e varianti, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq

Al momento non è stata eseguita la scansione
Multimedia

aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (con DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b

Al momento non è stata eseguita la scansione
AI Models

keras, pt, pth, tflite

Non è stata eseguita la scansione
Unknown Qualsiasi altro file non all'interno di un altro cluster. Si tratta di file privi di estensioni o che utilizzano estensioni comuni, ma non standard, come .dat, .1 o .2 Non è stata eseguita la scansione

Tipi di file non supportati in Cloud Storage

Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, per impostazione predefinita il sistema lo scansiona come file binario. Tenta di convertire i contenuti in UTF_8 e poi li analizza come testo normale.

Se un file non viene riconosciuto durante una ricerca di dispositivi, il sistema non lo esegue.

Se hai una raccolta di file che vuoi saltare perché la funzionalità Protezione dei dati sensibili non li supporta, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti per i byte sottoposti a scansione per file

In generale, puoi limitare il numero di byte scansionati per file. Nella console Google Cloud, puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e di analisi intelligente. In altre parole, quando i seguenti tipi di file vengono scansionati in modalità OCR o di analisi intelligente dei documenti, la funzionalità Protezione dei dati sensibili ignora le impostazioni che applichi per limitare i byte scansionati per file.

  • Immagine
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se esegui la scansione di questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.

Modalità di scansione Note Ulteriori dettagli sulla località da fornire
Binario

Se un file non riesce a essere analizzato come qualsiasi altro tipo, verrà convertito in UTF-8 e analizzato come testo. La scansione binaria influisce sulla qualità del rilevamento.

Analisi intelligente dei documenti

I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.

DocumentLocation
Estrazione di metadati

Tutti i file sottoposti a scansione da Cloud Storage avranno metadata sottoposto a scansione oltre ai contenuti del file.

MetadataLocation
Riconoscimento ottico dei caratteri (OCR)

Le immagini vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono analizzate come file binari.

ImageLocation
Testo normale

Nessun altro dettaglio
Analisi strutturata

Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di analisi può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive.

I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il rilevamento e il nome della colonna.

I risultati non superano i confini delle celle di una tabella.

RecordLocation

Scansione dei file strutturati in modalità di analisi strutturata

Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, la funzionalità Protezione dei dati sensibili tenta di eseguire la scansione del file in modalità di scansione con analisi sintattica strutturata. Questa modalità di scansione ha una qualità di rilevamento superiore rispetto alla scansione di tipo binario perché la modalità di analisi sintattica strutturata cerca correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, incluso il fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

  • Il file o l'intestazione è danneggiato.
  • La configurazione del job di ispezione ha limiti di dimensioni, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent, che sono troppo piccoli. Ad esempio, se il limite di bytesLimitPerFile non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe eseguire la scansione del file in modalità di scansione binaria.

La selezione dei dati sottoposti a scansione dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.

Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco di 50 KB e blocchi di dati di 2 MB. In generale, iniziare il campionamento dall'alto ti aiuta a garantire che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione random nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, l'aumento della dimensione del campione (specificata da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire all'ispezione di ripristinare la modalità di analisi binaria.

Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco.
Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).