Cloud Data Loss Prevention (Cloud DLP) 現已併入機密資料保護。API 名稱維持不變：Cloud Data Loss Prevention API (DLP API)。如要瞭解構成 Sensitive Data Protection 的服務，請參閱「Sensitive Data Protection 總覽」。

本頁面由 Cloud Translation API 翻譯而成。

支援的檔案類型和掃描模式

本頁列出 Sensitive Data Protection 可掃描的檔案類型，並說明 Sensitive Data Protection 用來分析檔案的掃描模式。

檢查和去識別化作業支援的檔案類型

下表列出 Sensitive Data Protection 可檢查及轉換 (去識別化) 的檔案類型。

Sensitive Data Protection 會根據檔案副檔名和媒體 (MIME) 類型，判斷要掃描的檔案類型，以及要套用的掃描模式。舉例來說，即使檔案結構為 CSV 檔案 (通常會以結構化剖析模式掃描)，機密資料保護服務仍會以純文字模式掃描 .txt 檔案。

檔案類型	副檔名	限制	掃描模式	轉換支援
`Apache Avro`	avro	Avro 限制	結構化剖析
`Comma- or tab-separated values`	csv、tsv 注意：如要在結構化剖析模式中掃描 CSV 或 TSV 檔案，請確認檔案的分隔符號與副檔名相符。也就是說，`.csv` 檔案必須以半形逗號分隔，`.tsv` 檔案則必須以定位點分隔。		結構化剖析	去識別化內容
`PDF`	pdf	PDF 限制	智慧型文件剖析
`Text`	asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、 hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、 mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、 scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、 xsd、xsl、yaml、yml		純文字	去識別化內容
`Microsoft Word`	docm、docx、dotm、dotx	字數限制	智慧型文件剖析
`Microsoft Excel`	xlsm、xlsx、xltm、xltx	Excel 限制	智慧型文件剖析
`Microsoft Powerpoint`	potm、potx、pptm、pptx	PowerPoint 限制	智慧型文件剖析
`Image`	bmp、gif、jpe、jpeg、jpg、png		OCR	遮蓋
`Binary`	無法辨識的檔案類型，以及無法使用光學字元辨識 (OCR) 掃描的圖片。		二進位檔

探索作業中支援的檔案叢集

在探索期間，Sensitive Data Protection 會將偵測到的檔案整理成檔案叢集。這些叢集是類型相似的檔案群組。下表列出支援的檔案叢集和副檔名。系統不一定能掃描所有偵測到的檔案。

隨著機密資料保護功能支援更多檔案叢集，檔案可能會在檔案叢集之間移動。隨著掃描支援範圍擴大，探索服務可能會開始掃描先前未掃描的檔案。系統會按照 Discovery 定價向您收費。

檔案叢集	副檔名	限制	掃描模式
`Text`	asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、 shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl		純文字
`Source Code`	bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、 hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、 pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、 yaml、yml		純文字
`Structured Data`	avro、csv、tsv、proto		針對 avro、csv 和 tsv 檔案進行結構化剖析。剖析 Proto 檔案的純文字
`Rich Documents`	doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、 xlsm、xlsx、xltm、xltx	系統會掃描支援的 PDF、Microsoft Word、Excel 和 PowerPoint 檔案，但檔案大小必須小於 30 MiB。	智慧型文件剖析
`Images`	bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp	支援的圖片 (bmp、gif、jpe、jpeg、jpg 和 png) 如果小於 4 MiB，而且所在區域支援光學字元辨識 (OCR)，就會以這項技術掃描。其他區域的圖片不會掃描。	OCR
`Executables`	ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、 ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、 gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、 vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、 x86_64、xap、xbe、xlm		目前未掃描
`Archives`	7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、 car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、 ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#、lzh、lzx、mou、pak、 paq#、paq6、paq7、paq8 和變體、partimg、pea、phar、pim、pit、qda、 rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、 tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、 uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz		Sensitive Data Protection 會掃描封存檔中的檔案，這些檔案的副檔名包括：bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip 系統會根據檔案類型，為每個檔案選用適當的掃描模式。
`Multimedia`	3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p (含 DRM)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv		目前未掃描
`AI Models`	caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords		目前未掃描
`Unknown`	不屬於其他叢集的任何其他檔案。	這些檔案沒有副檔名，或使用常見但非標準的副檔名，例如 .dat、.1 或 .2	目前未掃描

Cloud Storage 中無法辨識的檔案類型

如果系統在儲存空間掃描期間無法辨識檔案，預設會將檔案掃描為二進位檔案。並嘗試將內容轉換為 UTF_8，然後以純文字形式掃描。

如果在探索掃描期間無法辨識檔案，系統就不會掃描該檔案。

如果您有一系列檔案要略過，因為資料遺失防護無法辨識這些檔案，可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex 指定排除清單。

每個檔案的掃描位元組數上限

一般來說，您可以限制每個檔案掃描的位元組數。在Google Cloud 控制台中，只要開啟取樣即可。在 Cloud Data Loss Prevention API 中，您會設定 bytes_limit_per_file 或 bytesLimitPerFilePercent 欄位。

OCR 和智慧剖析模式不支援取樣。也就是說，當您在 OCR 或智慧型文件剖析模式下掃描下列檔案類型時，機密資料保護功能會忽略您套用的任何設定，不會限制每個檔案掃描的位元組數。

圖片
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

如果以二進位模式掃描這些檔案，就會受到限制。

掃描模式

每種掃描模式都會在檢查結果中提供額外的位置詳細資料。

掃描模式	附註	提供其他地點詳細資料
二進位檔	如果檔案無法剖析為任何其他類型，系統會將其轉換為 UTF_8 並掃描為文字。二進位掃描會影響偵測品質。
智慧型文件剖析	系統剖析文件時，會從格式設定中擷取出文字。如果所在區域支援光學字元辨識 (OCR) ，系統會透過這項技術掃描嵌入的圖片。其他區域的圖片會當做二進位檔案掃描。	`DocumentLocation`
中繼資料擷取	系統會掃描 Cloud Storage 中的所有檔案，並在檔案內容之外，一併掃描 `metadata`。	`MetadataLocation`
光學字元辨識 (OCR)	如果所在區域支援光學字元辨識 (OCR) ，系統會透過這項技術掃描圖片。其他區域的圖片會當做二進位檔案掃描。	`ImageLocation`
純文字		沒有其他詳細資料
結構化剖析	結構資訊會影響調查結果。在這種掃描模式下，Sensitive Data Protection 會從標頭取得背景資訊，並執行跨資料列和跨資料欄分析作業，找出相關聯的資料。舉例來說，假設街道地址的各部分散布於某列的不同資料欄，您就能透過這個掃描模式辨識完整街道地址。掃描結果包含結構資訊，例如含有發現項目的資料列和資料欄名稱。發現項目不會跨越表格儲存格的邊界。	`RecordLocation`

以結構化剖析模式掃描結構化檔案

掃描結構化檔案 (例如 Avro、CSV 或 TSV 檔案) 時，Sensitive Data Protection 會嘗試以結構化剖析掃描模式掃描檔案。與二進位掃描相比，這個掃描模式的偵測品質更優異，因為結構化剖析模式會搜尋結構化資料中的列和欄之間的相互關係。系統會傳回調查結果，以及指出調查結果位置的其他中繼資料，包括 fieldId。

不過，在下列情況下，Sensitive Data Protection 可能會還原為二進位掃描模式，該模式不包含結構化剖析模式的強化功能：

檔案或標頭已毀損。
檢查工作設定有大小限制 (例如 bytesLimitPerFile 和 bytesLimitPerFilePercent)，但限制太小。舉例來說，如果 bytesLimitPerFile 限制不夠大，無法納入完整區塊標頭和至少一列有效資料，Sensitive Data Protection 可能會以二進位掃描模式掃描該檔案。

掃描的資料取決於取樣設定，也就是從檔案頂端或隨機位置開始取樣。

舉例來說，假設您有一個 Avro 檔案，其中包含 50 KB 的區塊標頭和 2 MB 的資料區塊。一般來說，從頂端開始取樣有助於確保 Sensitive Data Protection 擷取的樣本一律包含區塊標頭。如果您從檔案中的隨機位置開始取樣，且樣本大小小於資料區塊，則樣本可能不會包含區塊標頭。在這個範例中，將樣本大小 (由 bytesLimitPerFile 或 bytesLimitPerFilePercent 指定) 增加至 2.05 MB，有助於防止檢查作業還原為二進位剖析模式。

範例：如果樣本大小太小，檢查可能不會包含區塊標頭。 — 示例：如果樣本大小過小，檢查結果可能不會包含區塊標題 (按一下即可放大)。