Jenis file
Tabel berikut menunjukkan jenis file yang didukung Sensitive Data Protection, batas pemindaian yang sesuai, mode pemindaian, dan dukungan transformasi.
Sensitive Data Protection mengandalkan ekstensi file dan jenis media (MIME) untuk mengidentifikasi jenis
file yang akan dipindai dan mode pemindaian yang akan
diterapkan. Misalnya, Perlindungan Data Sensitif memindai file .txt
dalam
mode teks biasa, meskipun file tersebut disusun sebagai file CSV, yang biasanya
dipindai dalam mode penguraian terstruktur.
Jenis file | Ekstensi file | Batas | Mode pemindaian | Dukungan transformasi |
---|---|---|---|---|
Apache Avro |
avro |
Batas Avro | Penguraian terstruktur | |
Comma- or tab-separated values | csv, tsv | Penguraian terstruktur | Melakukan de-identifikasi konten | |
PDF |
Batas PDF | Penguraian dokumen cerdas | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
Teks biasa | Melakukan de-identifikasi konten | |
Microsoft Word |
docx, dotx, docm, dotm |
Batas kata | Penguraian dokumen cerdas | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Batas Excel | Penguraian dokumen cerdas | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Batas PowerPoint | Penguraian dokumen cerdas | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Penyamaran | |
Binary |
Jenis file yang tidak didukung dan gambar yang tidak dapat dipindai menggunakan pengenalan karakter optik (OCR). |
Biner |
Cluster file
Tabel berikut menunjukkan grup file yang didukung Sensitive Data Protection saat membuat profil data sensitif. Profil data penyimpanan file memberikan skor sensitivitas dan risiko data untuk setiap koleksi file serupa.
File dapat berpindah antar-cluster file saat Sensitive Data Protection menambahkan dukungan untuk lebih banyak jenis file. Seiring dengan perluasan dukungan pemindaian, layanan penemuan dapat mulai memindai file yang sebelumnya tidak dipindai. Anda akan ditagih seperti yang dijelaskan dalam Harga penemuan.
Jenis file | Ekstensi file | Batas | Mode pemindaian | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
Teks biasa | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
Teks biasa | ||
Structured Data |
avro, csv, tsv, proto |
Penguraian terstruktur untuk file avro, csv, dan tsv. Penguraian teks biasa untuk file proto | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
File PDF, Microsoft Word, Excel, dan PowerPoint yang didukung dengan ukuran kurang dari 30 MiB akan dipindai. | Penguraian dokumen cerdas | |
Images |
bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp |
Gambar yang didukung bmp, gif, jpg, jpeg, jpe, png yang lebih kecil dari 4 MiB akan dipindai menggunakan OCR di wilayah yang mendukungnya. Di luar wilayah ini, gambar tidak akan dipindai. | OCR | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
Tidak dipindai saat ini | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 dan varian, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
Tidak dipindai saat ini | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (dengan DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
Tidak dipindai saat ini | ||
AI Models |
keras, pt, pth, tflite |
Tidak dipindai saat ini | ||
Unknown |
File lain yang tidak berada dalam cluster lain. | File ini tidak memiliki ekstensi atau menggunakan ekstensi umum tetapi tidak standar, seperti .dat atau .1 atau .2 | Tidak dipindai saat ini |
Jenis file yang tidak didukung di Cloud Storage
Jika file tidak dikenali selama pemindaian penyimpanan, sistem akan memindai file tersebut sebagai file biner secara default. Fungsi ini mencoba mengonversi konten ke UTF_8, lalu memindainya sebagai teks biasa.
Jika file tidak dikenali selama pemindaian penemuan, sistem tidak akan memindainya.
Jika Anda memiliki kumpulan file yang ingin dilewati karena Perlindungan Data Sensitif
tidak mendukungnya, Anda dapat menentukan daftar pengecualian menggunakan
CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Batasan byte yang dipindai per file
Secara umum, Anda dapat membatasi jumlah byte yang dipindai per file. Di konsol Google Cloud, Anda melakukannya dengan mengaktifkan sampling. Di
Cloud Data Loss Prevention API, Anda menetapkan kolom
bytes_limit_per_file
atau bytesLimitPerFilePercent
.
Pengambilan sampel tidak didukung dalam mode OCR dan penguraian cerdas. Artinya, saat jenis file berikut dipindai dalam mode OCR atau penguraian dokumen cerdas, Perlindungan Data Sensitif akan mengabaikan setelan apa pun yang Anda terapkan untuk membatasi byte yang dipindai per file.
- Gambar
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Jika Anda memindai file ini dalam mode biner, batas akan berlaku.
Mode pemindaian
Setiap mode pemindaian memberikan detail lokasi tambahan dalam temuan inspeksi.
Mode pemindaian | Catatan | Detail lokasi tambahan yang akan diberikan |
---|---|---|
Biner | Jika gagal diuraikan sebagai jenis lain, file akan dikonversi menjadi UTF_8 dan dipindai sebagai teks. Pemindaian biner memengaruhi kualitas deteksi. |
|
Penguraian dokumen cerdas | Dokumen diuraikan dengan teks yang diekstrak dari pemformatan. Gambar tersemat dipindai menggunakan OCR di wilayah yang mendukungnya . Di luar wilayah ini, gambar akan dipindai sebagai file biner. |
DocumentLocation |
Ekstraksi metadata | Semua file yang dipindai dari Cloud Storage akan
memindai |
MetadataLocation |
Pengenalan karakter optik (OCR) | Gambar dipindai menggunakan OCR di wilayah yang mendukungnya . Di luar wilayah ini, gambar akan dipindai sebagai file biner. |
ImageLocation |
Teks biasa | Tidak ada detail tambahan | |
Penguraian terstruktur | Informasi struktural digunakan untuk memengaruhi temuan. Dalam mode pemindaian ini, Perlindungan Data Sensitif menggunakan informasi header untuk konteks. Fungsi ini melakukan analisis lintas baris dan lintas kolom untuk menemukan data yang berkorelasi. Misalnya, mode pemindaian ini dapat mengidentifikasi alamat jalan yang komponennya didistribusikan di beberapa kolom dalam baris. Hasil pemindaian berisi informasi struktural, seperti baris yang berisi temuan dan nama kolom. Temuan tidak melewati batas sel tabel. |
RecordLocation |
Memindai file terstruktur dalam mode penguraian terstruktur
Saat Anda memindai file terstruktur—seperti file Avro, CSV, atau TSV—Perlindungan Data Sensitif akan mencoba memindai file dalam mode pemindaian penguraian terstruktur. Mode pemindaian ini memiliki
kualitas deteksi yang lebih baik dibandingkan dengan pemindaian
biner karena mode penguraian terstruktur
menelusuri korelasi antara baris dan kolom dalam data terstruktur.
Temuan ditampilkan dengan metadata tambahan yang menunjukkan lokasi
temuan, termasuk
fieldId
.
Namun, dalam kasus berikut, Perlindungan Data Sensitif dapat kembali ke mode pemindaian biner, yang tidak menyertakan peningkatan mode penguraian terstruktur:
- File atau header rusak.
- Konfigurasi tugas inspeksi memiliki batas ukuran—seperti
bytesLimitPerFile
danbytesLimitPerFilePercent
—yang terlalu kecil. Misalnya, jika batasbytesLimitPerFile
tidak cukup besar untuk menyertakan header blok penuh dan setidaknya satu baris data yang valid, Perlindungan Data Sensitif mungkin akan memindai file tersebut dalam mode pemindaian biner.
Pemilihan data yang dipindai bergantung pada apakah sampling ditetapkan untuk dimulai dari bagian atas file atau dari posisi acak.
Misalnya, Anda memiliki file Avro yang memiliki header blok 50 KB dan
blok data 2 MB. Secara umum, memulai sampel dari atas membantu Anda memastikan bahwa header blok selalu disertakan dalam sampel yang diambil oleh Sensitive Data Protection. Jika Anda mulai mengambil sampel dari posisi
acak dalam file dan ukuran sampel lebih kecil dari blok data, ada kemungkinan
header blok tidak disertakan dalam sampel. Dalam contoh ini,
meningkatkan ukuran sampel (ditentukan oleh bytesLimitPerFile
atau
bytesLimitPerFilePercent
) menjadi 2,05 MB akan membantu mencegah inspeksi
kembali ke mode penguraian biner.