Types de fichiers
Le tableau suivant présente les types de fichiers compatibles avec la protection des données sensibles, leurs limites d'analyse, leurs modes d'analyse et la compatibilité avec la transformation.
La protection des données sensibles s'appuie sur les extensions de fichier et les types de médias (MIME) pour identifier les types de fichiers à analyser et les modes d'analyse à appliquer. Par exemple, la protection des données sensibles analyse un fichier .txt
en mode texte brut, même si le fichier est structuré comme un fichier CSV, qui est normalement analysé en mode d'analyse structurée.
Type de fichier | Extensions de fichier | Limites | Mode d'analyse | Compatibilité avec la transformation |
---|---|---|---|---|
Apache Avro |
avro |
Limites Avro | Analyse structurée | |
Comma- or tab-separated values | CSV/TSV | Analyse structurée | Supprimer l'identification dans un contenu | |
PDF |
Limites PDF | Analyse intelligente des documents | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
Texte brut | Supprimer l'identification dans un contenu | |
Microsoft Word |
docx, dotx, docm, dotm |
Limites Word | Analyse intelligente des documents | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Limites d'Excel | Analyse intelligente des documents | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Limites de PowerPoint | Analyse intelligente des documents | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
Reconnaissance optique de caractères | Masquage | |
Binary |
Types de fichiers non compatibles et images ne pouvant pas être analysées à l'aide de la reconnaissance optique des caractères (OCR). |
Binaire |
Clusters de fichiers
Le tableau suivant présente les groupes de fichiers compatibles avec la protection des données sensibles lors de la création de profils de données sensibles. Un profil de données du magasin de fichiers fournit des scores de sensibilité et de risque liés aux données pour chaque collection de fichiers similaires.
Les fichiers peuvent être déplacés entre des groupes de fichiers à mesure que la protection des données sensibles prend en charge davantage de types de fichiers. À mesure que la prise en charge de l'analyse s'étend, le service de découverte peut commencer à analyser des fichiers qui n'étaient pas analysés auparavant. Vous êtes facturé comme décrit dans la section Tarifs de la détection.
Type de fichier | Extensions de fichier | Limites | Mode d'analyse | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
Texte brut | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
Texte brut | ||
Structured Data |
avro, csv, tsv, proto |
Analyse structurée des fichiers avro, CSV et TSV. Analyse de texte brut pour les fichiers proto | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
Les fichiers PDF, Microsoft Word, Excel et PowerPoint acceptés de moins de 30 Mo sont analysés. | Analyse intelligente des documents | |
Images |
bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp |
Les images acceptées (bmp, gif, jpg, jpeg, jpe, png) de moins de 4 Mo sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images ne sont pas analysées. | ROC | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
Non analysé pour le moment | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 et variantes, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
Non analysé pour le moment | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (avec DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
Non analysé pour le moment | ||
AI Models |
keras, pt, pth, tflite |
Non analysé pour le moment | ||
Unknown |
Tout autre fichier qui ne se trouve pas dans un autre cluster. | Il s'agit de fichiers qui n'ont pas d'extension ou qui utilisent des extensions courantes, mais non standards, telles que .dat, .1 ou .2. | Non analysé pour le moment |
Types de fichiers non pris en charge dans Cloud Storage
Si un fichier n'est pas reconnu lors d'une analyse de stockage, par défaut, le système l'analyse sous la forme d'un fichier binaire. Il tente de convertir le contenu en UTF_8, puis l'analyse en texte brut.
Si un fichier n'est pas reconnu lors d'une analyse de découverte, le système ne l'analyse pas.
Si vous souhaitez ignorer une collection de fichiers, parce que la protection des données sensibles ne les accepte pas, vous pouvez spécifier une liste d'exclusion à l'aide de CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limites sur les octets analysés par fichier
En général, vous pouvez limiter le nombre d'octets analysés par fichier. Dans la console Google Cloud, vous devez activer l'échantillonnage. Dans l'API Cloud Data Loss Prevention, vous définissez le champ bytes_limit_per_file
ou bytesLimitPerFilePercent
.
L'échantillonnage n'est pas compatible avec les modes OCR et d'analyse intelligente. Autrement dit, lorsque les types de fichiers suivants sont numérisés en mode OCR ou d'analyse intelligente des documents, la protection des données sensibles ignore les paramètres que vous appliquez pour limiter les octets numérisés par fichier.
- Image
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Si vous analysez ces fichiers en mode binaire, les limites s'appliquent.
Modes d'analyse
Chaque mode d'analyse fournit des détails de localisation supplémentaires dans les résultats d'inspection.
Mode d'analyse | Notes | Informations de localisation supplémentaires à fournir |
---|---|---|
Binary | Si un fichier ne peut pas être analysé comme n'importe quel autre type, il sera converti au format UTF_8 et analysé au format texte. L'analyse binaire affecte la qualité de détection. |
|
Analyse intelligente des documents | Les documents sont analysés avec du texte extrait de la mise en forme. Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires. |
DocumentLocation |
Extraction des métadonnées | Dans tous les fichiers analysés à partir de Cloud Storage
|
MetadataLocation |
Reconnaissance optique des caractères (OCR) | Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires. |
ImageLocation |
Texte brut | Pas de détails supplémentaires | |
Analyse structurée | Les informations structurelles sont utilisées pour influencer les résultats. Dans ce mode d'analyse, Sensitive Data Protection utilise les informations d'en-tête pour le contexte. Il effectue une analyse croisée des lignes et des colonnes pour trouver des données corrélées. Par exemple, ce mode d'analyse peut identifier une adresse postale dont les composantes sont réparties sur plusieurs colonnes d'une même ligne. Les résultats de l'analyse contiennent des informations structurelles, telles que la ligne contenant la découverte et le nom de la colonne. Les résultats ne dépassent pas les limites des cellules d'une table. |
RecordLocation |
Analyser des fichiers structurés en mode d'analyse structurée
Lorsque vous analysez un fichier structuré (par exemple, un fichier Avro, CSV ou TSV), la protection des données sensibles tente de l'analyser en mode d'analyse par analyse syntaxique structurée. Ce mode d'analyse offre une qualité de détection supérieure à celle de l'analyse binaire, car le mode d'analyse structurée recherche des corrélations entre les lignes et les colonnes des données structurées.
Les résultats sont renvoyés avec des métadonnées supplémentaires indiquant l'emplacement de la découverte, y compris le fieldId
.
Toutefois, dans les cas suivants, la protection des données sensibles peut revenir au mode d'analyse binaire, qui n'inclut pas les améliorations du mode d'analyse structurée:
- Le fichier ou l'en-tête est corrompu.
- La configuration de la tâche d'inspection comporte des limites de taille (par exemple,
bytesLimitPerFile
etbytesLimitPerFilePercent
) qui sont trop faibles. Par exemple, si la limitebytesLimitPerFile
n'est pas assez importante pour inclure un en-tête de bloc complet et au moins une ligne de données valides, Sensitive Data Protection peut analyser ce fichier en mode analyse binaire.
La sélection des données à analyser dépend de la configuration de l'échantillonnage, qui peut commencer en haut du fichier ou à une position aléatoire.
Par exemple, supposons que vous disposiez d'un fichier Avro contenant des en-têtes de bloc de 50 Ko et des blocs de données de 2 Mo. En règle générale, commencer l'échantillon par le haut vous permet de vous assurer que l'en-tête de bloc est toujours inclus dans l'échantillon que la protection des données sensibles prend. Si vous commencez l'échantillonnage à partir d'une position aléatoire dans le fichier et que la taille de l'échantillon est inférieure à un bloc de données, il est possible que l'en-tête de bloc ne soit pas inclus dans l'échantillon. Dans cet exemple, augmenter la taille de l'échantillon (spécifiée par bytesLimitPerFile
ou bytesLimitPerFilePercent
) à 2,05 Mo permet d'éviter que l'inspection ne revienne au mode d'analyse binaire.