Dateitypen
In der folgenden Tabelle sind die Dateitypen aufgeführt, die vom Schutz sensibler Daten unterstützt werden, sowie die entsprechenden Scanlimits, Scanmodi und Transformationsunterstützung.
Der Schutz sensibler Daten verwendet Dateiendungen und Medien-MIME-Typen, um die zu scannenden Dateitypen und die anzuwendenden Scanmodi zu identifizieren. So wird beispielsweise eine .txt
-Datei im Nur-Text-Modus gescannt, auch wenn die Datei als CSV-Datei strukturiert ist, die normalerweise im Modus für strukturiertes Parsen gescannt wird.
Dateityp | Dateiendungen | Limits | Scanmodus | Transformationsunterstützung |
---|---|---|---|---|
Apache Avro |
avro |
Avro-Beschränkungen | Strukturiertes Parsen | |
Comma- or tab-separated values | CSV, TSV | Strukturiertes Parsen | Identifizierung von Inhalt aufheben | |
PDF |
PDF-Limits | Intelligentes Parsen von Dokumenten | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
Nur Text | Identifizierung von Inhalt aufheben | |
Microsoft Word |
docx, dotx, docm, dotm |
Word-Beschränkungen | Intelligentes Parsen von Dokumenten | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Excel-Limits | Intelligentes Parsen von Dokumenten | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
PowerPoint-Grenzwerte | Intelligentes Parsen von Dokumenten | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Entfernen | |
Binary |
Nicht unterstützte Dateitypen und Bilder, die nicht mit der optischen Zeichenerkennung (Optical Character Recognition, OCR) gescannt werden können |
Binär |
Dateicluster
Die folgende Tabelle enthält die Dateigruppen, die vom Schutz sensibler Daten beim Erstellen von Profilen für sensible Daten unterstützt werden. Ein Datenprofil für den Dateispeicher enthält Sensitivitäts- und Datenrisikobewertungen für jede Sammlung ähnlicher Dateien.
Dateien können zwischen Dateiclustern verschoben werden, da der Schutz sensibler Daten die Unterstützung für weitere Dateitypen hinzufügt. Wenn die Unterstützung für den Scan erweitert wird, werden möglicherweise Dateien gescannt, die zuvor nicht gescannt wurden. Die Abrechnung erfolgt wie unter Erfassung – Preise beschrieben.
Dateityp | Dateiendungen | Limits | Scanmodus | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
Nur Text | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
Nur Text | ||
Structured Data |
Avro, CSV, TSV, Proto |
Strukturiertes Parsen für Avro-, CSV- und TSV-Dateien Nur-Text-Parsing für Proto-Dateien | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
Es werden unterstützte PDF-, Microsoft Word-, Excel- und PowerPoint-Dateien mit einer Größe von weniger als 30 MiB gescannt. | Intelligentes Parsen von Dokumenten | |
Images |
BMP, GIF, HEIF, ICO, JPG, JPEG, JPE, PNG, PM, SVG, TIFF, WEBP |
Das Scannen unterstützter Bilder (BMP, GIF, JPG, JPEG, JPE, PNG), die kleiner als 4 MiB sind, erfolgt mithilfe von OCR in Regionen, die diese Funktion unterstützen. Außerhalb dieser Regionen werden Bilder nicht gescannt. | OCR | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
Derzeit nicht gescannt | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 und Varianten, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
Derzeit nicht gescannt | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (mit DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
Derzeit nicht gescannt | ||
AI Models |
keras, pt, pth, tflite |
Derzeit nicht gescannt | ||
Unknown |
Alle anderen Dateien, die sich nicht in einem anderen Cluster befinden. | Das sind Dateien ohne Erweiterung oder mit gängigen, aber nicht standardmäßigen Erweiterungen wie .dat, .1 oder .2. | Derzeit nicht gescannt |
Nicht unterstützte Dateitypen in Cloud Storage
Wenn eine Datei während eines Speicherscans nicht erkannt wird, wird sie vom System standardmäßig als Binärdatei gescannt. Es wird versucht, den Inhalt in UTF_8 zu konvertieren und ihn dann als reinen Text zu scannen.
Wenn eine Datei während eines Erfassungsscans nicht erkannt wird, wird sie vom System nicht gescannt.
Wenn Sie bestimmte Dateien überspringen möchten, die nicht vom Schutz vor sensiblen Daten unterstützt werden, können Sie mit CloudStorageOptions.file_set.regex_file_set.exclude_regex
eine Ausschlussliste festlegen.
Beschränkungen für die Anzahl der pro Datei gescannten Byte
Sie können die Anzahl der pro Datei gescannten Byte im Allgemeinen begrenzen. In der Google Cloud Console können Sie die Stichprobenerhebung aktivieren. In der Cloud Data Loss Prevention API legen Sie das Feld bytes_limit_per_file
oder bytesLimitPerFilePercent
fest.
Die Stichprobenerhebung wird im OCR- und im intelligenten Parsemodus nicht unterstützt. Wenn die folgenden Dateitypen im OCR- oder intelligenten Dokumenten-Parsing-Modus gescannt werden, werden alle Einstellungen, die Sie zum Begrenzen der Anzahl der pro Datei gescannten Bytes anwenden, vom Schutz sensibler Daten ignoriert.
- Bild
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Wenn Sie diese Dateien im Binärmodus scannen, gelten die Limits.
Scanmodi
Jeder Scanmodus liefert zusätzliche Standortdetails in den Prüfergebnissen.
Scanmodus | Hinweise | Zusätzliche anzugebende Standortdetails |
---|---|---|
Binär | Wenn eine Datei nicht wie jeder andere Typ geparst werden kann, wird sie in UTF_8 konvertiert und als Text gescannt. Das binäre Scannen wirkt sich auf die Erkennungsqualität aus. |
|
Intelligentes Parsen von Dokumenten | Dokumente werden nach aus der Formatierung extrahiertem Text geparst. Eingebettete Bilder werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt. |
DocumentLocation |
Extraktion von Metadaten | Für alle von Cloud Storage gescannten Dateien werden zusätzlich zum Inhalt der Datei |
MetadataLocation |
Optische Zeichenerkennung (OCR) | Images werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt. |
ImageLocation |
Nur Text | Keine weiteren Details | |
Strukturiertes Parsen | Strukturelle Informationen werden verwendet, um Ergebnisse zu beeinflussen. In diesem Scanmodus verwendet Sensitive Data Protection die Headerinformationen als Kontext. Dabei wird eine zeilen- und spaltenübergreifende Analyse ausgeführt, um korrelierte Daten zu finden. Beispielsweise kann dieser Scanmodus eine Adresse identifizieren, deren Komponenten über mehrere Spalten in einer Zeile verteilt sind. Die Scanergebnisse enthalten strukturelle Informationen wie die Zeile mit dem Ergebnis und den Namen der Spalte. Ergebnisse überschreiten nicht die Zellengrenzen einer Tabelle. |
RecordLocation |
Strukturierte Dateien im Modus für strukturiertes Parsen scannen
Wenn Sie eine strukturierte Datei wie eine Avro-, CSV- oder TSV-Datei scannen, versucht der Sensitive Data Protection-Filter, die Datei im Modus für strukturiertes Parsen zu scannen. Dieser Scanmodus bietet eine bessere Erkennungsqualität als das binäre Scannen, da im Modus für strukturiertes Parsen nach Korrelationen zwischen Zeilen und Spalten in den strukturierten Daten gesucht wird.
Die Ergebnisse werden mit zusätzlichen Metadaten zurückgegeben, die den Speicherort des Ergebnisses angeben, einschließlich der fieldId
.
In den folgenden Fällen wird der Schutz sensibler Daten jedoch möglicherweise auf den Binärscanmodus zurückgesetzt, der die Verbesserungen des strukturierten Parsing-Modus nicht umfasst:
- Die Datei oder Kopfzeile ist beschädigt.
- Die Konfiguration des Inspektionsjobs hat Größenbeschränkungen, z. B.
bytesLimitPerFile
undbytesLimitPerFilePercent
, die zu klein sind. Wenn dasbytesLimitPerFile
-Limit beispielsweise nicht groß genug ist, um einen vollständigen Blockheader und mindestens eine Zeile mit gültigen Daten zu enthalten, wird die Datei möglicherweise im Binärscanmodus geprüft.
Die Auswahl der gescannten Daten hängt davon ab, ob die Stichprobenerhebung oben in der Datei oder an einer zufälligen Position beginnen soll.
Angenommen, Sie haben eine Avro-Datei mit 50 KB Blockheadern und 2 MB Datenblöcken. Wenn Sie die Stichprobe von oben beginnen, ist die Blocküberschrift in der Regel immer in der Stichprobe enthalten, die vom Schutz sensibler Daten erfasst wird. Wenn Sie mit dem Zufallsstichprobenverfahren an einer zufälligen Stelle in der Datei beginnen und die Stichprobengröße kleiner als ein Datenblock ist, ist die Wahrscheinlichkeit hoch, dass die Blocküberschrift nicht in der Stichprobe enthalten ist. In diesem Beispiel kann durch eine Erhöhung der Stichprobengröße (über bytesLimitPerFile
oder bytesLimitPerFilePercent
angegeben) auf 2,05 MB verhindert werden, dass die Prüfung zum Binär-Parsing-Modus zurückkehrt.