Jenis file
Tabel berikut menunjukkan jenis file yang didukung Perlindungan Data Sensitif, batas pemindaian yang sesuai, mode pemindaian, dan dukungan transformasi.
Perlindungan Data Sensitif bergantung pada ekstensi file dan jenis media (MIME) untuk mengidentifikasi jenis
file yang akan dipindai dan mode pemindaian yang
akan diterapkan. Misalnya, Sensitive Data Protection memindai file .txt
dalam
mode teks biasa, meskipun file tersebut terstruktur sebagai file CSV, yang biasanya
dipindai dalam mode penguraian terstruktur.
Jenis file | Ekstensi file | Batas | Mode pemindaian | Dukungan transformasi |
---|---|---|---|---|
Apache Avro |
avro |
Batas Avro | Penguraian Terstruktur | |
Comma- or tab-separated values | csv, tsv | Penguraian Terstruktur | Melakukan de-identifikasi konten | |
PDF |
Batas PDF | Penguraian Dokumen Cerdas | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, jsons, ini, java, js, json, |
Plain Text | Melakukan de-identifikasi konten | |
Microsoft Word |
docx, dotx, docm, dotm |
Batas kata | Penguraian Dokumen Cerdas | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Batas Excel | Penguraian Dokumen Cerdas | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Batas PowerPoint | Penguraian Dokumen Cerdas | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Penyamaran | |
Binary |
Jenis file yang tidak didukung dan gambar yang tidak dapat dipindai menggunakan pengenalan karakter optik (OCR). |
Biner |
Jenis file yang tidak didukung di Cloud Storage
Jika file tidak dikenali selama pemindaian penyimpanan, sistem akan secara default memindainya sebagai file biner. Ia mencoba mengonversi konten ke UTF_8, lalu memindainya sebagai teks biasa.
Jika memiliki kumpulan file yang ingin dilewati karena Perlindungan Data Sensitif
tidak mendukungnya, Anda dapat menentukan daftar pengecualian menggunakan
CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Batas byte yang dipindai per file
Secara umum, Anda dapat membatasi jumlah byte yang dipindai per file. Di Konsol Google Cloud, Anda melakukannya dengan mengaktifkan pengambilan sampel. Di Cloud Data Loss Prevention API, tetapkan kolom bytes_limit_per_file
atau bytesLimitPerFilePercent
.
Pengambilan sampel tidak didukung dalam mode penguraian cerdas dan OCR. Artinya, saat jenis file berikut dipindai dalam OCR atau mode penguraian dokumen cerdas, Perlindungan Data Sensitif akan mengabaikan setelan apa pun yang Anda terapkan untuk membatasi byte yang dipindai per file.
- Gambar
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Jika Anda memindai file ini dalam mode biner, batas tersebut akan berlaku.
Mode pemindaian
Setiap mode pemindaian memberikan detail lokasi tambahan dalam temuan pemeriksaan.
Mode pemindaian | Notes | Detail lokasi tambahan akan diberikan |
---|---|---|
Biner | Jika file gagal diurai sebagai jenis lainnya, file akan dikonversi ke UTF_8 dan dipindai sebagai teks. Pemindaian biner memengaruhi kualitas deteksi. |
|
Penguraian dokumen cerdas | Dokumen diuraikan dengan teks yang diekstrak dari pemformatan. Gambar tersemat dipindai menggunakan OCR di region yang mendukungnya . Di luar wilayah ini, gambar dipindai sebagai file biner. |
DocumentLocation |
Ekstraksi metadata | Selain isi file, semua file yang dipindai dari Cloud Storage akan dipindai untuk |
MetadataLocation |
Pengenalan karakter optik (OCR) | Gambar dipindai menggunakan OCR di region yang mendukungnya . Di luar wilayah ini, gambar dipindai sebagai file biner. |
ImageLocation |
Teks biasa | Tidak ada detail tambahan | |
Penguraian Terstruktur | Informasi struktural digunakan untuk mempengaruhi temuan. Dalam mode pemindaian ini, Sensitive Data Protection menggunakan informasi header untuk konteks. Ia melakukan analisis lintas baris dan lintas kolom untuk menemukan data yang berkorelasi. Misalnya, mode pemindaian ini dapat mengidentifikasi alamat yang komponennya didistribusikan ke beberapa kolom secara berturut-turut. Hasil pemindaian berisi informasi struktural, seperti baris yang berisi temuan dan nama kolom. Temuan tidak melewati batas sel tabel. |
RecordLocation |
Memindai file terstruktur dalam mode penguraian terstruktur
Saat Anda memindai file terstruktur, seperti file Avro, CSV, atau TSV, Perlindungan Data Sensitif akan mencoba memindai file dalam mode pemindaian penguraian terstruktur. Mode pemindaian ini memiliki kualitas deteksi yang lebih unggul dibandingkan dengan pemindaian biner karena mode penguraian terstruktur menelusuri korelasi antara baris dan kolom dalam data terstruktur.
Temuan ditampilkan dengan metadata tambahan yang menunjukkan lokasi
temuan, termasuk
fieldId
.
Namun, dalam kasus berikut, Perlindungan Data Sensitif mungkin kembali ke mode pemindaian biner, yang tidak mencakup peningkatan mode penguraian terstruktur:
- File atau header rusak.
- Konfigurasi tugas pemeriksaan memiliki batas ukuran—seperti
bytesLimitPerFile
danbytesLimitPerFilePercent
—yang terlalu kecil. Misalnya, jika batasbytesLimitPerFile
tidak cukup besar untuk menyertakan header blok penuh dan minimal satu baris data yang valid, Sensitive Data Protection mungkin akan memindai file tersebut dalam mode pemindaian biner.
Pemilihan data yang dipindai bergantung pada apakah pengambilan sampel ditetapkan untuk dimulai dari bagian atas file atau dari posisi acak.
Misalnya, Anda memiliki file Avro yang memiliki header blok 50 KB dan
blok data 2 MB. Secara umum, memulai sampel dari atas membantu Anda memastikan bahwa header blokir selalu disertakan dalam contoh yang diambil oleh Perlindungan Data Sensitif. Jika Anda memulai pengambilan sampel dari posisi acak dalam file dan ukuran sampel lebih kecil daripada blok data, ada kemungkinan header blok tidak disertakan dalam sampel. Dalam contoh ini,
meningkatkan ukuran sampel (ditetapkan oleh bytesLimitPerFile
atau
bytesLimitPerFilePercent
) menjadi 2,05 MB akan membantu mencegah pemeriksaan
dikembalikan ke mode penguraian biner.