文件类型
下表显示了敏感数据保护支持的文件类型、相应的扫描限制、扫描模式和转换支持。
敏感数据保护依靠文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型和要应用的扫描模式。例如,敏感数据保护会以纯文本模式扫描 .txt
文件,即使该文件采用 CSV 文件结构(通常在结构化解析模式下进行扫描)也是如此。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | 转换支持 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 限制 | 结构化解析 | |
Comma- or tab-separated values | csv、tsv | 结构化解析 | 对内容进行去标识化处理 | |
PDF |
PDF 限制 | 智能文档解析 | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhoc, cpp, java, js, lmd, xml |
纯文本 | 对内容进行去标识化处理 | |
Microsoft Word |
docx、dotx、docm、dotm |
Word 限制 | 智能文档解析 | |
Microsoft Excel |
xlsx、xlsm、xltx、xltm |
Excel 限制 | 智能文档解析 | |
Microsoft Powerpoint |
pptx、pptm、potx、potm |
Powerpoint 限制 | 智能文档解析 | |
Image |
bmp、gif、jpg、jpeg、jpe、png |
OCR | 隐去 | |
Binary |
不受支持的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。 |
二进制 |
Cloud Storage 中不受支持的文件类型
如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。
如果您因为 Sensitive Data Protection 不支持而想跳过一组文件,可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex
指定排除列表。
每个文件扫描的字节数限制
通常,您可以限制每个文件扫描的字节数。在 Google Cloud 控制台中,您可以通过开启采样来执行此操作。在 Cloud Data Loss Prevention API 中,设置 bytes_limit_per_file
或 bytesLimitPerFilePercent
字段。
OCR 和智能解析模式不支持采样。也就是说,在 OCR 或智能文档解析模式下扫描以下文件类型时,敏感数据保护会忽略您为限制每个文件扫描的字节数而应用的任何设置。
- 映像
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
如果您在二进制模式下扫描这些文件,则会受到相应限制。
扫描模式
扫描模式 | Notes | 要提供的其他位置详细信息 |
---|---|---|
二进制 | 如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。 |
|
智能文档解析 | 通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
DocumentLocation |
元数据提取 | 除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 |
MetadataLocation |
光学字符识别 (OCR) | 使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
ImageLocation |
纯文本 | 无其他详细信息 | |
结构化解析 | 并参考结构信息来影响发现结果。在此扫描模式下,敏感数据保护使用标头信息获取上下文。它会执行跨行和跨列分析来查找相关数据。例如,此扫描模式可以识别组成部分分布在一行中的多个列中的街道地址。 扫描结果包含结构信息,例如包含发现结果的行以及列名称。 发现结果不跨越表格的单元格边界。 |
RecordLocation |
以结构化解析模式扫描结构化文件
当您扫描结构化文件(例如 Avro、CSV 或 TSV 文件)时,敏感数据保护会尝试以结构化解析扫描模式扫描该文件。与二元扫描相比,此扫描模式的检测质量更高,因为结构化解析模式会搜索结构化数据中行和列之间的相关性。系统会返回发现结果以及指示发现结果位置的其他元数据,包括 fieldId
。
但是,在以下情况下,敏感数据保护可能会还原到二进制扫描模式,该模式不包括结构化解析模式的增强功能:
- 文件或标题已损坏。
- 检查作业配置具有太小的大小限制(例如
bytesLimitPerFile
和bytesLimitPerFilePercent
)。例如,如果bytesLimitPerFile
限制不够大,无法包含完整的块标头和至少一行有效数据,则敏感数据保护可能会在二进制扫描模式下扫描该文件。
选择要扫描的数据取决于采样设置为从文件顶部开始,还是从随机位置开始。
例如,假设您有一个包含 50 KB 块标头和 2 MB 数据块的 Avro 文件。通常,从顶部开始运行示例有助于您确保块标头始终包含在敏感数据保护功能获取的示例中。如果从文件中的随机位置开始采样,并且样本大小小于数据块,则样本中可能不包含块标头。在此示例中,将样本大小(由 bytesLimitPerFile
或 bytesLimitPerFilePercent
指定)增加到 2.05 MB 有助于防止检查恢复到二进制解析模式。