支持的文件类型

文件类型

文件类型 文件扩展名 限制 扫描模式 转换支持
Apache Avro

avro

Avro 限制 结构化解析
Comma- or tab-separated values

csv、tsv

结构化解析 对内容进行去标识化处理
PDF

pdf

PDF 限制 智能文档解析
Text

asc、brf、c、cc、cpp、cxx、c++、cs、css、dart、eml、go、h、hh、hpp、hxx、h++、hs、html、htm、shtml、shtm、xhtml、lhs、ini、java、js、json、ocaml、md、mkd、markdown、m、ml、mli、pl、pm、php、phtml、pht、py、pyw、rb、rbw、rs、rc、scala、sh、sql、tex、txt、text、vcard、vcs、wml、xml、xsl、xsd、yml、yaml。

纯文本 对内容进行去标识化处理
Microsoft Word

docx、dotx、docm、dotm

Word 限制 智能文档解析
Image

bmp、gif、jpg、jpeg、jpe、png

OCR 隐去
Binary

其他邮件

二元

Cloud Storage 中不受支持的文件类型

如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。要避免这种后备方式,请设置 CloudStorageOptions 来指定要扫描的文件类型。file_types

如果您有一组文件因 Cloud DLP 不支持而要跳过,则可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex 指定排除列表。

扫描模式

每种扫描模式都会在检查发现结果中提供其他位置详细信息

扫描模式 备注 要提供的其他位置详细信息
二元

如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。

智能文档解析

通过从格式中提取的文本来解析文档,并尽可能使用 OCR 扫描嵌入的图片。

DocumentLocation
元数据提取

除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 metadata 扫描。

MetadataLocation
光学字符识别 (OCR)

ImageLocation
纯文本

结构化解析

RecordLocation