Questa pagina elenca i tipi di file che Sensitive Data Protection può scansionare e descrive le modalità di scansione utilizzate da Sensitive Data Protection per analizzare i file.
Tipi di file supportati nelle operazioni di ispezione e anonimizzazione
La seguente tabella mostra i tipi di file che Sensitive Data Protection può ispezionare e trasformare (anonimizzare).
Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di media (MIME) per identificare i tipi
di file da analizzare e le modalità di scansione da
applicare. Ad esempio, la protezione dei dati sensibili analizza un file .txt
in modalità testo normale, anche se il file è strutturato come un file CSV, che normalmente viene analizzato in modalità di analisi strutturata.
Tipo di file | Estensioni dei file | Limiti | Modalità di scansione | Supporto per la trasformazione |
---|---|---|---|---|
Apache Avro |
avro |
Limiti di Avro | Analisi strutturata | |
Comma- or tab-separated values | csv, tsv | Analisi strutturata | Anonimizza i contenuti | |
PDF |
Limiti per i PDF | Analisi intelligente dei documenti | ||
Text |
asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml |
Testo normale | Anonimizza i contenuti | |
Microsoft Word |
docm, docx, dotm, dotx |
Limiti di parole | Analisi intelligente dei documenti | |
Microsoft Excel |
xlsm, xlsx, xltm, xltx |
Limiti di Excel | Analisi intelligente dei documenti | |
Microsoft Powerpoint |
potm, potx, pptm, pptx |
Limiti di PowerPoint | Analisi intelligente dei documenti | |
Image |
bmp, gif, jpe, jpeg, jpg, png |
OCR | Oscuramento | |
Binary |
Tipi di file non riconosciuti e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR). |
Binario |
Cluster di file supportati nelle operazioni di rilevamento
Durante il rilevamento, Sensitive Data Protection organizza i file rilevati in cluster di file. Questi cluster sono gruppi di tipi di file simili. La tabella seguente mostra i cluster di file e le estensioni di file supportati. Non tutti i file rilevati sono analizzabili.
I file potrebbero spostarsi tra i cluster di file man mano che la protezione dei dati sensibili aggiunge il supporto per altri cluster di file. Man mano che il supporto della scansione si espande, il servizio di rilevamento potrebbe iniziare a scansionare file che in precedenza non venivano scansionati. L'addebito viene effettuato come descritto in Prezzi di Discovery.
Cluster di file | Estensioni dei file | Limiti | Modalità di scansione |
---|---|---|---|
Text |
asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl |
Testo normale | |
Source Code |
bat, brf, c, c++, cc, cmd, com, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml |
Testo normale | |
Structured Data |
avro, csv, tsv, proto |
Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto | |
Rich Documents |
doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx |
Vengono scansionati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB. | Analisi intelligente dei documenti |
Images |
bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp |
Le immagini supportate (bmp, gif, jpe, jpeg, jpg e png) di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che lo supportano. Al di fuori di queste regioni, le immagini non vengono scansionate. | OCR |
Executables |
ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm |
Al momento non è stata eseguita la scansione | |
Archives |
7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 e varianti, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz |
La protezione dei dati sensibili esegue la scansione dei file all'interno degli archivi che hanno le seguenti estensioni: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip La modalità di scansione utilizzata per ogni file dipende dal tipo di file. |
|
Multimedia |
3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv |
Al momento non è stata eseguita la scansione | |
AI Models |
caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords |
Al momento non è stata eseguita la scansione | |
Unknown |
Qualsiasi altro file non incluso in un altro cluster. | Si tratta di file privi di estensioni o che utilizzano estensioni comuni ma non standard, come .dat, .1 o .2 | Al momento non è stata eseguita la scansione |
Tipi di file non riconosciuti in Cloud Storage
Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, il sistema lo scansionerà per impostazione predefinita come file binario. Tenta di convertire i contenuti in UTF_8, quindi li analizza come testo normale.
Se un file non viene riconosciuto durante una scansione di rilevamento, il sistema non lo scansiona.
Se hai una raccolta di file che vuoi ignorare perché la protezione dei dati sensibili
non li riconosce, puoi specificare un elenco di esclusione utilizzando
CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limiti per i byte scansionati per file
In generale, puoi limitare il numero di byte scansionati per file. Nella console
Google Cloud , puoi farlo attivando
il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file
o bytesLimitPerFilePercent
.
Il campionamento non è supportato nelle modalità OCR e analisi intelligente. ovvero, quando i seguenti tipi di file vengono scansionati in modalità OCR o analisi intelligente dei documenti, la protezione dei dati sensibili ignora qualsiasi impostazione applicata per limitare i byte scansionati per file.
- Immagine
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Se scansioni questi file in modalità binaria, si applicano i limiti.
Modalità di scansione
Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.
Modalità di scansione | Note | Ulteriori dettagli sulla sede da fornire |
---|---|---|
Binario | Se l'analisi di un file non riesce con nessun altro tipo, il file verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento. |
|
Analisi intelligente dei documenti | I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari. |
DocumentLocation |
Estrazione dei metadati | Tutti i file scansionati da Cloud Storage avranno
|
MetadataLocation |
Riconoscimento ottico dei caratteri (OCR) | Le immagini vengono scansionate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari. |
ImageLocation |
Testo normale | Nessun dettaglio aggiuntivo | |
Analisi strutturata | Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive. I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il risultato e il nome della colonna. I risultati non superano i limiti delle celle di una tabella. |
RecordLocation |
Scansione dei file strutturati in modalità di analisi strutturata
Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di eseguire la scansione del file in modalità di scansione dell'analisi strutturata. Questa modalità di scansione ha
una qualità di rilevamento superiore rispetto alla scansione
binaria perché la modalità di analisi strutturata
cerca correlazioni tra righe e colonne nei dati strutturati.
I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del
risultato, incluso il
fieldId
.
Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:
- Il file o l'intestazione è danneggiato.
- La configurazione del job di ispezione ha limiti di dimensioni, ad esempio
bytesLimitPerFile
ebytesLimitPerFilePercent
, che sono troppo piccoli. Ad esempio, se il limitebytesLimitPerFile
non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe scansionare il file in modalità di scansione binaria.
La selezione dei dati scansionati dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.
Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco da 50 KB e
blocchi di dati da 2 MB. In generale, iniziare il campionamento dall'alto ti aiuta ad assicurarti che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio,
l'aumento delle dimensioni del campione (specificato da bytesLimitPerFile
o
bytesLimitPerFilePercent
) a 2,05 MB contribuisce a impedire che l'ispezione
ritorni alla modalità di analisi binaria.