支持的文件类型和扫描模式

文件类型

下表显示了敏感数据保护支持的文件类型、相应的扫描限制、扫描模式和转换支持。

敏感数据保护依靠文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型和要应用的扫描模式。例如,敏感数据保护会以纯文本模式扫描 .txt 文件,即使该文件采用 CSV 文件结构(通常在结构化解析模式下进行扫描)也是如此。

文件类型 文件扩展名 限制 扫描模式 转换支持
Apache Avro

avro

Avro 限制 结构化解析
Comma- or tab-separated values

csv、tsv

结构化解析 对内容进行去标识化处理
PDF

pdf

PDF 限制 智能文档解析
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhoc, cpp, java, js, lmd, xml

纯文本 对内容进行去标识化处理
Microsoft Word

docx、dotx、docm、dotm

Word 限制 智能文档解析
Microsoft Excel

xlsx、xlsm、xltx、xltm

Excel 限制 智能文档解析
Microsoft Powerpoint

pptx、pptm、potx、potm

Powerpoint 限制 智能文档解析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 隐去
Binary

不受支持的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。

二进制

Cloud Storage 中不受支持的文件类型

如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。

如果您因为 Sensitive Data Protection 不支持而想跳过一组文件,可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex 指定排除列表。

每个文件扫描的字节数限制

通常,您可以限制每个文件扫描的字节数。在 Google Cloud 控制台中,您可以通过开启采样来执行此操作。在 Cloud Data Loss Prevention API 中,设置 bytes_limit_per_filebytesLimitPerFilePercent 字段。

OCR 和智能解析模式不支持采样。也就是说,在 OCR 或智能文档解析模式下扫描以下文件类型时,敏感数据保护会忽略您为限制每个文件扫描的字节数而应用的任何设置。

  • 映像
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

如果您在二进制模式下扫描这些文件,则会受到相应限制。

扫描模式

每种扫描模式都会在检查发现结果中提供其他位置详细信息

扫描模式 Notes 要提供的其他位置详细信息
二进制

如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。

智能文档解析

通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。

DocumentLocation
元数据提取

除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 metadata 扫描。

MetadataLocation
光学字符识别 (OCR)

使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。

ImageLocation
纯文本

无其他详细信息
结构化解析

并参考结构信息来影响发现结果。在此扫描模式下,敏感数据保护使用标头信息获取上下文。它会执行跨行和跨列分析来查找相关数据。例如,此扫描模式可以识别组成部分分布在一行中的多个列中的街道地址。

扫描结果包含结构信息,例如包含发现结果的行以及列名称。

发现结果不跨越表格的单元格边界。

RecordLocation

以结构化解析模式扫描结构化文件

当您扫描结构化文件(例如 Avro、CSV 或 TSV 文件)时,敏感数据保护会尝试以结构化解析扫描模式扫描该文件。与二元扫描相比,此扫描模式的检测质量更高,因为结构化解析模式会搜索结构化数据中行和列之间的相关性。系统会返回发现结果以及指示发现结果位置的其他元数据,包括 fieldId

但是,在以下情况下,敏感数据保护可能会还原到二进制扫描模式,该模式不包括结构化解析模式的增强功能:

  • 文件或标题已损坏。
  • 检查作业配置具有太小的大小限制(例如 bytesLimitPerFilebytesLimitPerFilePercent)。例如,如果 bytesLimitPerFile 限制不够大,无法包含完整的块标头和至少一行有效数据,则敏感数据保护可能会在二进制扫描模式下扫描该文件。

选择要扫描的数据取决于采样设置为从文件顶部开始,还是从随机位置开始。

例如,假设您有一个包含 50 KB 块标头和 2 MB 数据块的 Avro 文件。通常,从顶部开始运行示例有助于您确保块标头始终包含在敏感数据保护功能获取的示例中。如果从文件中的随机位置开始采样,并且样本大小小于数据块,则样本中可能不包含块标头。在此示例中,将样本大小(由 bytesLimitPerFilebytesLimitPerFilePercent 指定)增加到 2.05 MB 有助于防止检查恢复到二进制解析模式。

示例:如果样本规模太小,检查可能不会包含块标头。
示例:如果样本规模过小,检查可能不包括块标头(点击可放大)。