文件类型
下表显示了 Sensitive Data Protection 支持的文件类型, 相应的扫描限制,扫描 模式和转换支持。
敏感数据保护功能依赖于文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型以及要应用的扫描模式。例如,Sensitive Data Protection 会在以下位置扫描 .txt
文件:
纯文本模式,即使文件结构为 CSV 文件(通常
是在结构化解析模式下进行扫描的。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | 转换支持 |
---|---|---|---|---|
Apache Avro |
avro |
Avro 限制 | 结构化解析 | |
Comma- or tab-separated values | csv、tsv | 结构化解析 | 对内容进行去标识化处理 | |
PDF |
PDF 限制 | 智能文档解析 | ||
Text |
asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json jsonl、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml xml、xsl、xsd、yml、yaml。 |
纯文本 | 对内容进行去标识化处理 | |
Microsoft Word |
docx、dotx、docm、dotm |
Word 限制 | 智能文档解析 | |
Microsoft Excel |
xlsx、xlsm、xltx、xltm |
Excel 限制 | 智能文档解析 | |
Microsoft Powerpoint |
pptx、pptm、potx、potm |
PowerPoint 限制 | 智能文档解析 | |
Image |
bmp、gif、jpg、jpeg、jpe、png |
OCR | 隐去 | |
Binary |
不受支持的文件类型以及无法使用光学字符识别 (OCR) 扫描的图片。 |
二元 |
文件集群
下表显示了敏感数据保护在创建敏感数据分析文件时支持的文件组。文件存储数据分析文件提供 敏感度和数据风险得分。
随着敏感数据保护功能支持更多文件类型,文件可能会在文件集群之间移动。随着扫描支持的扩大,发现服务 开始扫描之前未扫描的文件。我们会按照说明向您收取费用 参阅发现价格部分。
文件类型 | 文件扩展名 | 限制 | 扫描模式 | |
---|---|---|---|---|
Text |
asc、eml、html、htm、ini、json、jsonL、log、md、mkd、markdown、plist、sql、shtml、shtm、tex、txt、text、vcard、vcs、xsl、xsd |
纯文本 | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
纯文本 | ||
Structured Data |
avro、csv、tsv、proto |
对 avro、csv 和 tsv 文件进行结构化解析。proto 文件的纯文本解析 | ||
Rich Documents |
doc、docx、dotx、docm、dotm、xls、xlsx、xlsm、xltx、xltm、xls、ppt、pptx、pptm、potx、potm、pdf |
系统会扫描小于 30 MiB 的受支持 PDF、Microsoft Word、Excel 和 PowerPoint 文件。 | 智能文档解析 | |
Images |
bmp、gif、heic、ico、jpg、jpeg、jpe、png、pm、svg、tiff、webp |
在支持光学字符识别 (OCR) 功能的区域中,小于 4 MiB 的受支持图片(BMP、GIF、JPG、JPEG、JPE、PNG)使用该功能进行扫描。 系统不会扫描这些区域之外的图片。 | OCR | |
Executables |
ac、air、app、appimage、apk、bas、bms、bin、class、cls、com、command、ctl、ctx、dca、ddf、dep、dob、dox、dll、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、wsf、widget、workflow、x86、x86_64、xap、xbe、xlm |
目前未扫描 | ||
Archives |
所有 |
目前未扫描 | ||
Multimedia |
aa, aac, aax, act, aiff, aac, aax, act, aiff, alac, aax, act, aiff, alac, , c |
目前未扫描 | ||
Unknown |
不在其他集群内的任何其他文件。 | 此类文件缺少扩展名或使用常见但非标准的文件 扩展名,如 .dat、.1 或 .2 | 目前没有扫描 |
Cloud Storage 中不受支持的文件类型
如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。
如果在上传过程中 发现扫描、 则不进行扫描。
如果您有一组由于敏感数据保护而要跳过的文件
不支持,则可以使用
CloudStorageOptions.file_set.regex_file_set.exclude_regex
。
对每个文件扫描的字节数的限制
一般来说,您可以限制要扫描的每个文件的字节数。在
为此,您只需启用
采样。在 Cloud Data Loss Prevention API 中,您可以设置 bytes_limit_per_file
或 bytesLimitPerFilePercent
字段。
光学字符识别 (OCR) 和智能解析模式不支持抽样。也就是说, 以下文件类型会以 OCR 或智能文档解析模式扫描; Sensitive Data Protection 会忽略您为限制字节数而应用的任何设置 每个文件扫描的字节数。
- 映像
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
如果您在二进制模式下扫描这些文件,则需要遵守这些限制。
扫描模式
扫描模式 | 备注 | 要提供的其他位置详细信息 |
---|---|---|
二进制 | 如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。 |
|
智能文档解析 | 通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
DocumentLocation |
元数据提取 | 除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 |
MetadataLocation |
光学字符识别 (OCR) | 使用 OCR 在支持图片的区域中扫描图片。在这些区域之外,图片将作为二进制文件进行扫描。 |
ImageLocation |
纯文本 | 无其他详细信息 | |
结构化解析 | 结构信息用于影响发现结果。在此扫描模式下,Sensitive Data Protection 使用标题信息来了解上下文。它会执行跨行和跨列分析以查找关联数据。例如,此扫描模式可以确定组成部分分散在一行中多个列内的街道地址。 扫描结果包含结构信息,例如包含发现结果的行和列的名称。 发现结果不会超出表格的单元格边界。 |
RecordLocation |
在结构化解析模式下扫描结构化文件
扫描结构化文件(例如 Avro、CSV 或 TSV)时
- Sensitive Data Protection 会尝试在以下位置扫描文件:
结构化解析扫描
模式。与二进制扫描相比,此扫描模式的检测质量更高,因为结构化解析模式会搜索结构化数据中行与列之间的相关性。系统会返回发现结果以及指示
包括
fieldId
。
但在以下情况下,敏感数据保护可能会还原 该模式对二进制扫描模式进行了改进, 结构化解析模式:
- 文件或标头已损坏。
- 检查作业配置有大小限制,例如
bytesLimitPerFile
和bytesLimitPerFilePercent
- 尺寸太小例如,如果bytesLimitPerFile
的限制不是很高 足以包括一个完整的块标头和至少一行有效的 敏感数据,则 Sensitive Data Protection 可能会以二进制文件格式扫描该文件 扫描模式。
选择要扫描的数据取决于 抽样 设置为从文件顶部或随机位置开始。
例如,假设您有一个 Avro 文件,其中包含 50 KB 的块标头和 2 MB 的数据块。一般来说,从顶部开始采样有助于确保敏感数据保护功能采集的样本中始终包含块头。如果您开始随机采样,
并且样本规模小于数据块,则存在
屏蔽标头未包含在样本中的可能性。在此示例中
增加样本大小(由 bytesLimitPerFile
或
bytesLimitPerFilePercent
)设置为 2.05 MB,有助于防止
还原到二进制解析模式。