Unterstützte Dateitypen und Scanmodi

Dateitypen

In der folgenden Tabelle sind die Dateitypen, die vom Schutz sensibler Daten unterstützt werden, sowie die entsprechenden Scanlimits, Scanmodi und Transformationen aufgeführt.

Beim Schutz sensibler Daten werden Dateiendungen und Medientypen (MIME) eingesetzt, um die Typen der zu scannenden Dateien und die anzuwendenden Scanmodi zu identifizieren. Der Schutz sensibler Daten scannt beispielsweise eine .txt-Datei im Nur-Text-Modus, auch wenn die Datei als CSV-Datei strukturiert ist, die normalerweise im strukturierten Parsing-Modus gescannt wird.

File type Dateiendungen Limits Scanmodus Transformationsunterstützung
Apache Avro

avro

Avro-Beschränkungen Strukturiertes Parsen
Comma- or tab-separated values

CSV, TSV

Strukturiertes Parsen Inhalte de-identifizieren
PDF

pdf

PDF-Limits Intelligentes Parsen von Dokumenten
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dt, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, ml, json, ini, java, ml, JS

Nur Text Inhalte de-identifizieren
Microsoft Word

docx, dotx, docm, dotm

Word-Beschränkungen Intelligentes Parsen von Dokumenten
Microsoft Excel

XLSX, XLSM, XLTX, XLTM

Limits für Excel Intelligentes Parsen von Dokumenten
Microsoft Powerpoint

PPTX, PPTM, POTX, PoM

PowerPoint-Limits Intelligentes Parsen von Dokumenten
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Entfernen
Binary

Nicht unterstützte Dateitypen und Bilder, die nicht mit der optischen Zeichenerkennung (Optical Character Recognition, OCR) gescannt werden können

Binär

Nicht unterstützte Dateitypen in Cloud Storage

Wenn eine Datei während eines Speicherscans nicht erkannt wird, wird sie vom System standardmäßig als Binärdatei gescannt. Es wird versucht, den Inhalt in UTF_8 zu konvertieren und ihn dann als reinen Text zu scannen.

Wenn Sie eine Sammlung von Dateien überspringen möchten, da sie vom Schutz sensibler Daten nicht unterstützt werden, können Sie mit CloudStorageOptions.file_set.regex_file_set.exclude_regex eine Ausschlussliste angeben.

Limits für gescannte Byte pro Datei

Im Allgemeinen können Sie die Anzahl der pro Datei gescannten Byte begrenzen. Dazu aktivieren Sie in der Google Cloud Console die Stichprobenerhebung. In der Cloud Data Loss Prevention API legen Sie das Feld bytes_limit_per_file oder bytesLimitPerFilePercent fest.

Die Stichprobenerhebung wird bei der optischen Zeichenerkennung (OCR) und im intelligenten Parsing-Modus nicht unterstützt. Das heißt, wenn die folgenden Dateitypen im OCR-Modus oder im intelligenten Dokument-Parsing-Modus gescannt werden, ignoriert der Schutz sensibler Daten alle Einstellungen, die Sie zur Begrenzung der pro Datei gescannten Byte festlegen.

  • Bild
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Wenn Sie diese Dateien im Binärmodus scannen, gelten die Limits.

Scanmodi

Jeder Scanmodus stellt zusätzliche Standortdetails in den Inspektionsergebnissen bereit.

Scanmodus Notes Zusätzliche anzugebende Standortdetails
Binär

Wenn eine Datei nicht wie jeder andere Typ geparst werden kann, wird sie in UTF_8 konvertiert und als Text gescannt. Das binäre Scannen wirkt sich auf die Erkennungsqualität aus.

Intelligentes Parsen von Dokumenten

Dokumente werden nach aus der Formatierung extrahiertem Text geparst. Eingebettete Bilder werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt.

DocumentLocation
Extraktion von Metadaten

Für alle von Cloud Storage gescannten Dateien werden zusätzlich zum Inhalt der Datei metadata gescannt.

MetadataLocation
Optische Zeichenerkennung (OCR)

Images werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt.

ImageLocation
Nur Text

Keine weiteren Details
Strukturiertes Parsen

Strukturelle Informationen werden verwendet, um Ergebnisse zu beeinflussen. In diesem Scanmodus verwendet der Schutz sensibler Daten die Header-Informationen für den Kontext. Es wird eine zeilen- und spaltenübergreifende Analyse durchgeführt, um korrelierte Daten zu finden. In diesem Scanmodus kann beispielsweise eine Adresse ermittelt werden, deren Komponenten auf mehrere Spalten in einer Zeile verteilt sind.

Die Scanergebnisse enthalten strukturelle Informationen wie die Zeile mit dem Ergebnis und den Namen der Spalte.

Ergebnisse überschreiten die Zellengrenzen einer Tabelle nicht.

RecordLocation

Strukturierte Dateien im strukturierten Parsing-Modus scannen

Wenn Sie eine strukturierte Datei scannen, z. B. eine Avro-, CSV- oder TSV-Datei, wird vom Schutz sensibler Daten versucht, die Datei im Scanmodus für strukturiertes Parsen zu scannen. Dieser Scanmodus bietet eine bessere Erkennungsqualität als das binäre Scannen, da der strukturierte Parsing-Modus nach Korrelationen zwischen Zeilen und Spalten in den strukturierten Daten sucht. Ergebnisse werden mit zusätzlichen Metadaten zurückgegeben, die den Ort des Ergebnisses angeben, einschließlich des fieldId.

In den folgenden Fällen wird der Schutz sensibler Daten jedoch möglicherweise in den binären Scanmodus zurückgesetzt, in dem die Verbesserungen des strukturierten Parsing-Modus nicht enthalten sind:

  • Die Datei oder der Header ist beschädigt.
  • Für die Konfiguration von Inspektionsjobs gelten Größenbeschränkungen wie bytesLimitPerFile und bytesLimitPerFilePercent, die zu klein sind. Wenn das Limit bytesLimitPerFile beispielsweise nicht groß genug ist, um einen vollständigen Blockheader und mindestens eine Zeile mit gültigen Daten einzuschließen, scannt der Schutz sensibler Daten diese Datei möglicherweise im binären Scanmodus.

Welche Daten gescannt werden, hängt davon ab, ob die Stichproben so eingestellt ist, dass sie am Anfang der Datei oder von einer zufälligen Position aus beginnt.

Angenommen, Sie haben eine Avro-Datei mit 50 KB Blockheadern und 2 MB Datenblöcken. Im Allgemeinen können Sie so dafür sorgen, dass der Blockheader immer in dem Beispiel enthalten ist, das für den Schutz sensibler Daten verwendet wird. Wenn Sie das Sampling an einer zufälligen Position in der Datei starten und die Stichprobengröße kleiner als ein Datenblock ist, ist es möglich, dass der Blockheader nicht in der Stichprobe enthalten ist. In diesem Beispiel wird durch die Erhöhung der Stichprobengröße (angegeben durch bytesLimitPerFile oder bytesLimitPerFilePercent) auf 2,05 MB verhindert, dass die Prüfung in den binären Parsing-Modus zurückgesetzt wird.

Beispiel: Wenn eine Stichprobe zu klein ist, enthält die Prüfung möglicherweise keinen Blockheader.
Beispiel: Wenn eine Stichprobe zu klein ist, enthält die Prüfung möglicherweise keinen Blockheader (zum Vergrößern klicken).