Tipi di file e modalità di scansione supportati

Questa pagina elenca i tipi di file che Sensitive Data Protection può scansionare e descrive le modalità di scansione utilizzate da Sensitive Data Protection per analizzare i file.

Tipi di file supportati nelle operazioni di ispezione e anonimizzazione

La seguente tabella mostra i tipi di file che Sensitive Data Protection può ispezionare e trasformare (anonimizzare).

Sensitive Data Protection si basa sulle estensioni dei file e sui tipi di media (MIME) per identificare i tipi di file da analizzare e le modalità di scansione da applicare. Ad esempio, la protezione dei dati sensibili analizza un file .txt in modalità testo normale, anche se il file è strutturato come un file CSV, che normalmente viene analizzato in modalità di analisi strutturata.

Tipo di file Estensioni dei file Limiti Modalità di scansione Supporto per la trasformazione
Apache Avro

avro

Limiti di Avro Analisi strutturata
Comma- or tab-separated values

csv, tsv

Analisi strutturata Anonimizza i contenuti
PDF

pdf

Limiti per i PDF Analisi intelligente dei documenti
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Testo normale Anonimizza i contenuti
Microsoft Word

docm, docx, dotm, dotx

Limiti di parole Analisi intelligente dei documenti
Microsoft Excel

xlsm, xlsx, xltm, xltx

Limiti di Excel Analisi intelligente dei documenti
Microsoft Powerpoint

potm, potx, pptm, pptx

Limiti di PowerPoint Analisi intelligente dei documenti
Image

bmp, gif, jpe, jpeg, jpg, png

OCR Oscuramento
Binary

Tipi di file non riconosciuti e immagini che non possono essere scansionate utilizzando il riconoscimento ottico dei caratteri (OCR).

Binario

Cluster di file supportati nelle operazioni di rilevamento

Durante il rilevamento, Sensitive Data Protection organizza i file rilevati in cluster di file. Questi cluster sono gruppi di tipi di file simili. La tabella seguente mostra i cluster di file e le estensioni di file supportati. Non tutti i file rilevati sono analizzabili.

I file potrebbero spostarsi tra i cluster di file man mano che la protezione dei dati sensibili aggiunge il supporto per altri cluster di file. Man mano che il supporto della scansione si espande, il servizio di rilevamento potrebbe iniziare a scansionare file che in precedenza non venivano scansionati. L'addebito viene effettuato come descritto in Prezzi di Discovery.

Cluster di file Estensioni dei file Limiti Modalità di scansione
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Testo normale
Source Code

bat, brf, c, c++, cc, cmd, com, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Testo normale
Structured Data

avro, csv, tsv, proto

Analisi strutturata per file avro, csv e tsv. Analisi del testo normale per i file proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

Vengono scansionati i file PDF, Microsoft Word, Excel e PowerPoint supportati di dimensioni inferiori a 30 MiB. Analisi intelligente dei documenti
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp

Le immagini supportate (bmp, gif, jpe, jpeg, jpg e png) di dimensioni inferiori a 4 MiB vengono analizzate utilizzando l'OCR nelle regioni che lo supportano. Al di fuori di queste regioni, le immagini non vengono scansionate. OCR
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

Al momento non è stata eseguita la scansione
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 e varianti, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

La protezione dei dati sensibili esegue la scansione dei file all'interno degli archivi che hanno le seguenti estensioni: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip

La modalità di scansione utilizzata per ogni file dipende dal tipo di file.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

Al momento non è stata eseguita la scansione
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

Al momento non è stata eseguita la scansione
Unknown Qualsiasi altro file non incluso in un altro cluster. Si tratta di file privi di estensioni o che utilizzano estensioni comuni ma non standard, come .dat, .1 o .2 Al momento non è stata eseguita la scansione

Tipi di file non riconosciuti in Cloud Storage

Se un file non viene riconosciuto durante una scansione dello spazio di archiviazione, il sistema lo scansionerà per impostazione predefinita come file binario. Tenta di convertire i contenuti in UTF_8, quindi li analizza come testo normale.

Se un file non viene riconosciuto durante una scansione di rilevamento, il sistema non lo scansiona.

Se hai una raccolta di file che vuoi ignorare perché la protezione dei dati sensibili non li riconosce, puoi specificare un elenco di esclusione utilizzando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limiti per i byte scansionati per file

In generale, puoi limitare il numero di byte scansionati per file. Nella console Google Cloud , puoi farlo attivando il campionamento. Nell'API Cloud Data Loss Prevention, imposta il campo bytes_limit_per_file o bytesLimitPerFilePercent.

Il campionamento non è supportato nelle modalità OCR e analisi intelligente. ovvero, quando i seguenti tipi di file vengono scansionati in modalità OCR o analisi intelligente dei documenti, la protezione dei dati sensibili ignora qualsiasi impostazione applicata per limitare i byte scansionati per file.

  • Immagine
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Se scansioni questi file in modalità binaria, si applicano i limiti.

Modalità di scansione

Ogni modalità di scansione fornisce ulteriori dettagli sulla posizione nei risultati dell'ispezione.

Modalità di scansione Note Ulteriori dettagli sulla sede da fornire
Binario

Se l'analisi di un file non riesce con nessun altro tipo, il file verrà convertito in UTF_8 e scansionato come testo. La scansione binaria influisce sulla qualità del rilevamento.

Analisi intelligente dei documenti

I documenti vengono analizzati con il testo estratto dalla formattazione. Le immagini incorporate vengono analizzate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari.

DocumentLocation
Estrazione dei metadati

Tutti i file scansionati da Cloud Storage avranno metadata scansionato in aggiunta ai contenuti del file.

MetadataLocation
Riconoscimento ottico dei caratteri (OCR)

Le immagini vengono scansionate utilizzando l'OCR nelle regioni che lo supportano . Al di fuori di queste regioni, le immagini vengono scansionate come file binari.

ImageLocation
Testo normale

Nessun dettaglio aggiuntivo
Analisi strutturata

Le informazioni strutturali vengono utilizzate per influenzare i risultati. In questa modalità di analisi, Sensitive Data Protection utilizza le informazioni dell'intestazione per il contesto. Esegue un'analisi tra righe e colonne per trovare dati correlati. Ad esempio, questa modalità di scansione può identificare l'indirizzo di una via i cui componenti sono distribuiti all'interno di più colonne consecutive.

I risultati della scansione contengono informazioni strutturali, ad esempio la riga che contiene il risultato e il nome della colonna.

I risultati non superano i limiti delle celle di una tabella.

RecordLocation

Scansione dei file strutturati in modalità di analisi strutturata

Quando esegui la scansione di un file strutturato, ad esempio un file Avro, CSV o TSV, Sensitive Data Protection tenta di eseguire la scansione del file in modalità di scansione dell'analisi strutturata. Questa modalità di scansione ha una qualità di rilevamento superiore rispetto alla scansione binaria perché la modalità di analisi strutturata cerca correlazioni tra righe e colonne nei dati strutturati. I risultati vengono restituiti con metadati aggiuntivi che indicano la posizione del risultato, incluso il fieldId.

Tuttavia, nei seguenti casi, Sensitive Data Protection potrebbe tornare alla modalità di scansione binaria, che non include i miglioramenti della modalità di analisi strutturata:

  • Il file o l'intestazione è danneggiato.
  • La configurazione del job di ispezione ha limiti di dimensioni, ad esempio bytesLimitPerFile e bytesLimitPerFilePercent, che sono troppo piccoli. Ad esempio, se il limite bytesLimitPerFile non è sufficiente per includere un'intestazione di blocco completa e almeno una riga di dati validi, Sensitive Data Protection potrebbe scansionare il file in modalità di scansione binaria.

La selezione dei dati scansionati dipende dal fatto che il campionamento sia impostato per iniziare dalla parte superiore del file o da una posizione casuale.

Ad esempio, supponiamo di avere un file Avro con intestazioni di blocco da 50 KB e blocchi di dati da 2 MB. In generale, iniziare il campionamento dall'alto ti aiuta ad assicurarti che l'intestazione del blocco sia sempre inclusa nel campione acquisito da Sensitive Data Protection. Se inizi il campionamento da una posizione casuale nel file e la dimensione del campione è inferiore a un blocco di dati, è possibile che l'intestazione del blocco non sia inclusa nel campione. In questo esempio, l'aumento delle dimensioni del campione (specificato da bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB contribuisce a impedire che l'ispezione ritorni alla modalità di analisi binaria.

Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco.
Esempio: quando la dimensione del campione è troppo piccola, l'ispezione potrebbe non includere l'intestazione del blocco (fai clic per ingrandire).