Unterstützte Dateitypen

Dateitypen

Dateityp Dateiendungen Limits Scanmodus Transformationsunterstützung
Apache Avro

avro

Avro-Beschränkungen Strukturiertes Parsen
PDF

pdf

PDF-Beschränkungen Intelligentes Parsen von Dokumenten
Text

asc, brf, c, cc, cpp, csv, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, tsv, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

Nur Text Identifizierung von Inhalt aufheben
Microsoft Word

docx, dotx, docm, dotm

Wortbeschränkungen Intelligentes Parsen von Dokumenten
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Entfernen
Binary

Alles andere

Binär

Nicht unterstützte Dateitypen in Cloud Storage

Wenn eine Datei während eines Speicherscans nicht erkannt wird, scannt das System sie standardmäßig als Binärdatei. Es versucht, den Inhalt in UTF_8 zu konvertieren und ihn dann als nur Text zu scannen. Wenn Sie dieses Fallback vermeiden möchten, geben Sie die zu durchsuchenden Dateitypen mit CloudStorageOptions.file_types an.

Wenn Sie eine Sammlung von Dateien überspringen möchten, weil Cloud DLP sie nicht unterstützt, können Sie mithilfe von CloudStorageOptions.file_set.regex_file_set.exclude_regex eine Ausschlussliste angeben.

Scanmodi

Jeder Scanmodus stellt zusätzliche Standortdetails in den Prüfergebnissen bereit.

Scanmodus Hinweise Zusätzliche Standortdetails
Binär

Wenn eine Datei nicht geparst werden kann, wird sie in UTF_8 konvertiert und als Text gescannt.

Intelligentes Parsen von Dokumenten

DocumentLocation
Extraktion von Metadaten

Bei allen aus Cloud Storage gescannten Dateien wird zusätzlich zum Inhalt der Datei metadata gescannt.

MetadataLocation
Optische Zeichenerkennung (Optical Character Recognition, OCR)

ImageLocation
Nur Text

Strukturiertes Parsen

RecordLocation