支持的文件类型和扫描模式

文件类型

下表显示了 Sensitive Data Protection 支持的文件类型, 相应的扫描限制,扫描 模式和转换支持。

敏感数据保护功能依赖于文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型以及要应用的扫描模式。例如,Sensitive Data Protection 会在以下位置扫描 .txt 文件: 纯文本模式,即使文件结构为 CSV 文件(通常 是在结构化解析模式下进行扫描的。

文件类型 文件扩展名 限制 扫描模式 转换支持
Apache Avro

avro

Avro 限制 结构化解析
Comma- or tab-separated values

csv、tsv

结构化解析 对内容进行去标识化处理
PDF

pdf

PDF 限制 智能文档解析
Text

asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml xml、xsl、xsd、yml、yaml。

纯文本 对内容进行去标识化处理
Microsoft Word

docx、dotx、docm、dotm

Word 限制 智能文档解析
Microsoft Excel

xlsx、xlsm、xltx、xltm

Excel 限制 智能文档解析
Microsoft Powerpoint

pptx、pptm、potx、potm

PowerPoint 限制 智能文档解析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 隐去
Binary

不受支持的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。

二元

文件集群

下表显示了敏感数据保护在创建敏感数据分析文件时支持的文件组。文件存储数据分析文件提供 敏感度和数据风险得分。

随着敏感数据保护功能支持更多文件类型,文件可能会在文件集群之间移动。随着扫描支持的扩大,发现服务 开始扫描之前未扫描的文件。我们会按照说明向您收取费用 参阅发现价格部分。

文件类型 文件扩展名 限制 扫描模式
Text

asc、eml、html、htm、ini、json、jsonL、log、md、mkd、markdown、plist、sql、shtml、shtm、tex、txt、text、vcard、vcs、xsl、xsd

纯文本
Source Code

bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs

纯文本
Structured Data

avro、csv、tsv、proto

对 avro、csv 和 tsv 文件进行结构化解析。proto 文件的纯文本解析
Rich Documents

doc、docx、dotx、docm、dotm、xls、xlsx、xlsm、xltx、xltm、xls、ppt、pptx、pptm、potx、potm、pdf

系统会扫描小于 30 MiB 的受支持 PDF、Microsoft Word、Excel 和 PowerPoint 文件。 智能文档解析
Images

bmp、gif、heic、ico、jpg、jpeg、jpe、png、pm、svg、tiff、webp

支持光学字符识别 (OCR) 功能的区域中,小于 4 MiB 的受支持图片(BMP、GIF、JPG、JPEG、JPE、PNG)使用该功能进行扫描。 系统不会扫描这些区域之外的图片。 OCR
Executables

ac、air、app、appimage、apk、bas、bms、bin、class、cls、com、command、ctl、ctx、dca、ddf、dep、dob、dox、dll、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、wsf、widget、workflow、x86、x86_64、xap、xbe、xlm

目前未扫描
Archives

所有

目前未扫描
Multimedia

aa, aac, aax, act, aiff, aac, aax, act, aiff, alac, aax, act, aiff, alac, , c

目前未扫描
Unknown 不在其他集群内的任何其他文件。 此类文件缺少扩展名或使用常见但非标准的文件 扩展名,如 .dat、.1 或 .2 目前没有扫描

Cloud Storage 中不受支持的文件类型

如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。

如果在上传过程中 发现扫描、 则不进行扫描。

如果您有一组由于敏感数据保护而要跳过的文件 不支持,则可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex

对每个文件扫描的字节数的限制

一般来说,您可以限制要扫描的每个文件的字节数。在 为此,您只需启用 采样。在 Cloud Data Loss Prevention API 中,您可以设置 bytes_limit_per_filebytesLimitPerFilePercent 字段。

光学字符识别 (OCR) 和智能解析模式不支持抽样。也就是说, 以下文件类型会以 OCR 或智能文档解析模式扫描; Sensitive Data Protection 会忽略您为限制字节数而应用的任何设置 每个文件扫描的字节数。

  • 映像
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

如果您在二进制模式下扫描这些文件,则需要遵守这些限制。

扫描模式

每种扫描模式都会在检查发现结果中提供其他位置详细信息

扫描模式 备注 要提供的其他位置详细信息
二进制

如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。

智能文档解析

通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。

DocumentLocation
元数据提取

除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 metadata 扫描。

MetadataLocation
光学字符识别 (OCR)

使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。

ImageLocation
纯文本

无其他详细信息
结构化解析

结构信息用于影响发现结果。在此扫描模式下,Sensitive Data Protection 使用标题信息来了解上下文。它会执行跨行和跨列分析以查找关联数据。例如,此扫描模式可以确定组成部分分散在一行中多个列内的街道地址。

扫描结果包含结构信息,例如包含发现结果的行和列的名称。

发现结果不会超出表格的单元格边界。

RecordLocation

在结构化解析模式下扫描结构化文件

扫描结构化文件(例如 Avro、CSV 或 TSV)时 - Sensitive Data Protection 会尝试在以下位置扫描文件: 结构化解析扫描 模式。与二进制扫描相比,此扫描模式的检测质量更高,因为结构化解析模式会搜索结构化数据中行与列之间的相关性。系统会返回发现结果以及指示 包括 fieldId

但在以下情况下,敏感数据保护可能会还原 该模式对二进制扫描模式进行了改进, 结构化解析模式:

  • 文件或标头已损坏。
  • 检查作业配置有大小限制,例如 bytesLimitPerFilebytesLimitPerFilePercent - 尺寸太小例如,如果 bytesLimitPerFile 的限制不是很高 足以包括一个完整的块标头和至少一行有效的 敏感数据,则 Sensitive Data Protection 可能会以二进制文件格式扫描该文件 扫描模式。

选择要扫描的数据取决于 抽样 设置为从文件顶部或随机位置开始。

例如,假设您有一个 Avro 文件,其中包含 50 KB 的块标头和 2 MB 的数据块。一般来说,从顶部开始采样有助于确保敏感数据保护功能采集的样本中始终包含块头。如果您开始随机采样, 并且样本规模小于数据块,则存在 屏蔽标头未包含在样本中的可能性。在此示例中 增加样本大小(由 bytesLimitPerFilebytesLimitPerFilePercent)设置为 2.05 MB,有助于防止 还原到二进制解析模式。

示例:如果样本大小过小,检查可能不会包含分块标头。
示例:如果样本规模过小,检查结果可能不包含代码块标题(点击可放大)。