Dateitypen
In der folgenden Tabelle sind die Dateitypen, die vom Schutz sensibler Daten unterstützt werden, sowie die entsprechenden Scanlimits, Scanmodi und Transformationen aufgeführt.
Beim Schutz sensibler Daten werden Dateiendungen und Medientypen (MIME) eingesetzt, um die Typen der zu scannenden Dateien und die anzuwendenden Scanmodi zu identifizieren. Der Schutz sensibler Daten scannt beispielsweise eine .txt
-Datei im Nur-Text-Modus, auch wenn die Datei als CSV-Datei strukturiert ist, die normalerweise im strukturierten Parsing-Modus gescannt wird.
File type | Dateiendungen | Limits | Scanmodus | Transformationsunterstützung |
---|---|---|---|---|
Apache Avro |
avro |
Avro-Beschränkungen | Strukturiertes Parsen | |
Comma- or tab-separated values | CSV, TSV | Strukturiertes Parsen | Inhalte de-identifizieren | |
PDF |
PDF-Limits | Intelligentes Parsen von Dokumenten | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dt, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, ml, json, ini, java, ml, JS |
Nur Text | Inhalte de-identifizieren | |
Microsoft Word |
docx, dotx, docm, dotm |
Word-Beschränkungen | Intelligentes Parsen von Dokumenten | |
Microsoft Excel |
XLSX, XLSM, XLTX, XLTM |
Limits für Excel | Intelligentes Parsen von Dokumenten | |
Microsoft Powerpoint |
PPTX, PPTM, POTX, PoM |
PowerPoint-Limits | Intelligentes Parsen von Dokumenten | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Entfernen | |
Binary |
Nicht unterstützte Dateitypen und Bilder, die nicht mit der optischen Zeichenerkennung (Optical Character Recognition, OCR) gescannt werden können |
Binär |
Nicht unterstützte Dateitypen in Cloud Storage
Wenn eine Datei während eines Speicherscans nicht erkannt wird, wird sie vom System standardmäßig als Binärdatei gescannt. Es wird versucht, den Inhalt in UTF_8 zu konvertieren und ihn dann als reinen Text zu scannen.
Wenn Sie eine Sammlung von Dateien überspringen möchten, da sie vom Schutz sensibler Daten nicht unterstützt werden, können Sie mit CloudStorageOptions.file_set.regex_file_set.exclude_regex
eine Ausschlussliste angeben.
Limits für gescannte Byte pro Datei
Im Allgemeinen können Sie die Anzahl der pro Datei gescannten Byte begrenzen. Dazu aktivieren Sie in der Google Cloud Console die Stichprobenerhebung. In der Cloud Data Loss Prevention API legen Sie das Feld bytes_limit_per_file
oder bytesLimitPerFilePercent
fest.
Die Stichprobenerhebung wird bei der optischen Zeichenerkennung (OCR) und im intelligenten Parsing-Modus nicht unterstützt. Das heißt, wenn die folgenden Dateitypen im OCR-Modus oder im intelligenten Dokument-Parsing-Modus gescannt werden, ignoriert der Schutz sensibler Daten alle Einstellungen, die Sie zur Begrenzung der pro Datei gescannten Byte festlegen.
- Bild
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Wenn Sie diese Dateien im Binärmodus scannen, gelten die Limits.
Scanmodi
Jeder Scanmodus stellt zusätzliche Standortdetails in den Inspektionsergebnissen bereit.
Scanmodus | Notes | Zusätzliche anzugebende Standortdetails |
---|---|---|
Binär | Wenn eine Datei nicht wie jeder andere Typ geparst werden kann, wird sie in UTF_8 konvertiert und als Text gescannt. Das binäre Scannen wirkt sich auf die Erkennungsqualität aus. |
|
Intelligentes Parsen von Dokumenten | Dokumente werden nach aus der Formatierung extrahiertem Text geparst. Eingebettete Bilder werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt. |
DocumentLocation |
Extraktion von Metadaten | Für alle von Cloud Storage gescannten Dateien werden zusätzlich zum Inhalt der Datei |
MetadataLocation |
Optische Zeichenerkennung (OCR) | Images werden mithilfe von OCR in Regionen gescannt, die dieses unterstützen . Außerhalb dieser Regionen werden Bilder als Binärdateien gescannt. |
ImageLocation |
Nur Text | Keine weiteren Details | |
Strukturiertes Parsen | Strukturelle Informationen werden verwendet, um Ergebnisse zu beeinflussen. In diesem Scanmodus verwendet der Schutz sensibler Daten die Header-Informationen für den Kontext. Es wird eine zeilen- und spaltenübergreifende Analyse durchgeführt, um korrelierte Daten zu finden. In diesem Scanmodus kann beispielsweise eine Adresse ermittelt werden, deren Komponenten auf mehrere Spalten in einer Zeile verteilt sind. Die Scanergebnisse enthalten strukturelle Informationen wie die Zeile mit dem Ergebnis und den Namen der Spalte. Ergebnisse überschreiten die Zellengrenzen einer Tabelle nicht. |
RecordLocation |
Strukturierte Dateien im strukturierten Parsing-Modus scannen
Wenn Sie eine strukturierte Datei scannen, z. B. eine Avro-, CSV- oder TSV-Datei, wird vom Schutz sensibler Daten versucht, die Datei im Scanmodus für strukturiertes Parsen zu scannen. Dieser Scanmodus bietet eine bessere Erkennungsqualität als das binäre Scannen, da der strukturierte Parsing-Modus nach Korrelationen zwischen Zeilen und Spalten in den strukturierten Daten sucht.
Ergebnisse werden mit zusätzlichen Metadaten zurückgegeben, die den Ort des Ergebnisses angeben, einschließlich des fieldId
.
In den folgenden Fällen wird der Schutz sensibler Daten jedoch möglicherweise in den binären Scanmodus zurückgesetzt, in dem die Verbesserungen des strukturierten Parsing-Modus nicht enthalten sind:
- Die Datei oder der Header ist beschädigt.
- Für die Konfiguration von Inspektionsjobs gelten Größenbeschränkungen wie
bytesLimitPerFile
undbytesLimitPerFilePercent
, die zu klein sind. Wenn das LimitbytesLimitPerFile
beispielsweise nicht groß genug ist, um einen vollständigen Blockheader und mindestens eine Zeile mit gültigen Daten einzuschließen, scannt der Schutz sensibler Daten diese Datei möglicherweise im binären Scanmodus.
Welche Daten gescannt werden, hängt davon ab, ob die Stichproben so eingestellt ist, dass sie am Anfang der Datei oder von einer zufälligen Position aus beginnt.
Angenommen, Sie haben eine Avro-Datei mit 50 KB Blockheadern und 2 MB Datenblöcken. Im Allgemeinen können Sie so dafür sorgen, dass der Blockheader immer in dem Beispiel enthalten ist, das für den Schutz sensibler Daten verwendet wird. Wenn Sie das Sampling an einer zufälligen Position in der Datei starten und die Stichprobengröße kleiner als ein Datenblock ist, ist es möglich, dass der Blockheader nicht in der Stichprobe enthalten ist. In diesem Beispiel wird durch die Erhöhung der Stichprobengröße (angegeben durch bytesLimitPerFile
oder bytesLimitPerFilePercent
) auf 2,05 MB verhindert, dass die Prüfung in den binären Parsing-Modus zurückgesetzt wird.