Halaman ini menjelaskan cara Perlindungan Data Sensitif dapat membuat salinan data yang telah dide-identifikasi dan disimpan di Cloud Storage. Halaman ini juga mencantumkan batasan operasi ini dan poin yang harus Anda pertimbangkan sebelum memulai.
Untuk informasi tentang cara menggunakan Perlindungan Data Sensitif untuk membuat salinan data Cloud Storage yang telah dide-identifikasi, lihat referensi berikut:
- Membuat salinan data yang dide-identifikasi yang disimpan di Cloud Storage menggunakan konsol Google Cloud
- Membuat salinan data yang dide-identifikasi yang disimpan di Cloud Storage menggunakan API
Tentang de-identifikasi
De-identifikasi adalah proses penghapusan informasi identitas dari data. Tujuannya adalah untuk memungkinkan penggunaan dan pembagian informasi pribadi—seperti informasi kesehatan, keuangan, atau demografi —sambil memenuhi persyaratan privasi. Untuk mengetahui informasi selengkapnya tentang de-identifikasi, lihat Melakukan de-identifikasi data sensitif.
Untuk informasi yang lebih mendalam tentang transformasi de-identifikasi di Perlindungan Data Sensitif, lihat Referensi transformasi. Untuk mengetahui informasi selengkapnya tentang cara Perlindungan Data Sensitif menyamarkan data sensitif dari gambar, lihat Pemeriksaan dan penyamaran gambar.
Kapan harus menggunakan fitur ini
Fitur ini berguna jika file yang Anda gunakan dalam operasi bisnis berisi data sensitif, seperti informasi identitas pribadi (PII). Fitur ini memungkinkan Anda menggunakan dan membagikan informasi sebagai bagian dari proses bisnis, sekaligus menjaga bagian data sensitif tetap tersembunyi.
Proses de-identifikasi
Bagian ini menjelaskan proses de-identifikasi di Sensitive Data Protection untuk konten di Cloud Storage.
Untuk menggunakan fitur ini, Anda membuat
tugas inspeksi (DlpJob
) yang dikonfigurasi untuk membuat salinan file Cloud Storage yang telah di-de-identifikasi.
Perlindungan Data Sensitif memindai file di lokasi yang ditentukan, memeriksanya
sesuai dengan konfigurasi Anda. Saat memeriksa setiap file,
Sensitive Data Protection akan melakukan de-identifikasi data apa pun yang cocok dengan kriteria Anda untuk
data sensitif, lalu menulis konten ke file baru. File baru selalu memiliki
nama file yang sama dengan file asli.
File ini akan disimpan di direktori output yang Anda tentukan. Jika file
disertakan dalam pemindaian, tetapi tidak ada data yang cocok dengan kriteria de-identifikasi Anda, dan
tidak ada error dalam pemrosesannya, file tersebut akan disalin, tanpa diubah, ke
direktori output.
Direktori output yang Anda tetapkan harus berada di bucket Cloud Storage yang berbeda dengan bucket yang berisi file input Anda. Di direktori output, Perlindungan Data Sensitif membuat struktur file yang mencerminkan struktur file direktori input.
Misalnya, Anda menetapkan direktori input dan output berikut:
- Direktori input:
gs://input-bucket/folder1/folder1a
- Direktori output:
gs://output-bucket/output-directory
Selama de-identifikasi, Perlindungan Data Sensitif menyimpan file yang dide-identifikasi
di gs://output-bucket/output-directory/folder1/folder1a
.
Jika file ada di direktori output dengan nama file yang sama dengan file yang dideidentifikasi, file tersebut akan ditimpa. Jika Anda tidak ingin file yang ada ditimpa, ubah direktori output sebelum menjalankan operasi ini. Atau, pertimbangkan untuk mengaktifkan pembuatan versi objek di bucket output.
Daftar kontrol akses (ACL) tingkat file untuk file asli akan disalin ke file baru, terlepas dari apakah data sensitif ditemukan dan dide-identifikasi. Namun, jika bucket output hanya dikonfigurasi untuk izin level bucket uniform, dan bukan izin terperinci (level objek), ACL tidak akan disalin ke file yang dide-identifikasi.
Diagram berikut menunjukkan proses de-identifikasi untuk empat file yang disimpan di bucket Cloud Storage. Setiap file disalin, terlepas dari apakah Perlindungan Data Sensitif mendeteksi data sensitif apa pun. Setiap file yang disalin diberi nama yang sama dengan file aslinya.
Harga
Untuk mengetahui informasi harga, lihat Pemeriksaan dan transformasi data dalam penyimpanan.
Jenis file yang didukung
Perlindungan Data Sensitif dapat melakukan de-identifikasi grup jenis file berikut:
- CSV
- Gambar
- Teks
- TSV
Perilaku de-identifikasi default
Jika ingin menentukan cara Perlindungan Data Sensitif mengubah temuan, Anda dapat memberikan template de-identifikasi untuk jenis file berikut:
- File tidak terstruktur, seperti file teks dengan teks bentuk bebas
- File terstruktur, seperti file CSV
- Image
Jika Anda tidak memberikan template de-identifikasi, Perlindungan Data Sensitif akan mengubah temuan sebagai berikut:
- Dalam file terstruktur dan tidak terstruktur, Perlindungan Data Sensitif mengganti semua temuan dengan infoType yang sesuai, seperti yang dijelaskan dalam Penggantian InfoType.
- Dalam gambar, Perlindungan Data Sensitif akan menutupi semua temuan dengan kotak hitam.
Batasan dan pertimbangan
Pertimbangkan poin-poin berikut sebelum membuat salinan data Cloud Storage yang telah dide-identifikasi.
Kapasitas disk
Operasi ini hanya mendukung konten yang disimpan di Cloud Storage.
Operasi ini membuat salinan setiap file saat Sensitive Data Protection memeriksanya. Tindakan ini tidak mengubah atau menghapus konten asli. Data yang disalin akan menggunakan jumlah ruang disk tambahan yang kira-kira sama dengan data asli.
Akses tulis ke penyimpanan
Karena Perlindungan Data Sensitif membuat salinan file asli, agen layanan project Anda harus memiliki akses tulis di bucket output Cloud Storage.
Sampling dan menetapkan batas penemuan
Operasi ini tidak mendukung sampling. Secara khusus, Anda tidak dapat membatasi jumlah
setiap file yang dipindai dan dide-identifikasi oleh Sensitive Data Protection. Artinya, jika Anda menggunakan Cloud Data Loss Prevention API, Anda tidak dapat menggunakan bytesLimitPerFile
dan bytesLimitPerFilePercent
dalam objek CloudStorageOptions
dari DlpJob
.
Selain itu, Anda tidak dapat mengontrol jumlah maksimum temuan yang akan ditampilkan.
Jika menggunakan DLP API, Anda tidak dapat menetapkan objek FindingLimits
di DlpJob
.
Persyaratan untuk memeriksa data
Saat menjalankan tugas pemeriksaan, Perlindungan Data Sensitif akan memeriksa data terlebih dahulu, sesuai dengan konfigurasi pemeriksaan Anda, sebelum melakukan de-identifikasi. Proses inspeksi tidak dapat dilewati.
Persyaratan untuk menggunakan ekstensi file
Sensitive Data Protection mengandalkan ekstensi file untuk mengidentifikasi jenis file di direktori input Anda. File yang tidak memiliki ekstensi file mungkin tidak akan dideidentifikasi, meskipun file tersebut berjenis file yang didukung.
File yang dilewati
Saat melakukan de-identifikasi file dalam penyimpanan, Perlindungan Data Sensitif akan melewati file berikut:
- File yang melebihi 60.000 KB. Jika Anda memiliki file besar yang melebihi batas ini, pertimbangkan untuk membaginya menjadi beberapa potongan yang lebih kecil.
- File dari jenis yang tidak didukung. Untuk daftar jenis file yang didukung, lihat Jenis file yang didukung di halaman ini.
- Jenis file yang sengaja Anda kecualikan dari konfigurasi
de-identifikasi. Jika Anda menggunakan DLP API, jenis file
yang Anda kecualikan dari kolom
file_types_to_transform
tindakanDeidentify
dariDlpJob
akan dilewati. - File yang mengalami error transformasi.
Urutan baris output dalam tabel yang dide-identifikasi
Tidak ada jaminan bahwa urutan baris dalam tabel yang dide-identifikasi cocok dengan urutan baris dalam tabel asli. Jika ingin membandingkan tabel asli dengan tabel yang dide-identifikasi, Anda tidak dapat mengandalkan nomor baris untuk mengidentifikasi baris yang sesuai. Jika ingin membandingkan baris tabel, Anda harus menggunakan ID unik untuk mengidentifikasi setiap kumpulan data.
Kunci sementara
Jika memilih metode kriptografis sebagai metode transformasi, Anda harus membuat kunci yang digabungkan menggunakan Cloud Key Management Service terlebih dahulu. Kemudian, berikan kunci tersebut di template de-identifikasi Anda. Kunci sementara (mentah) tidak didukung.
Langkah selanjutnya
- Pelajari cara melakukan de-identifikasi data sensitif yang disimpan di Cloud Storage menggunakan DLP API.
- Pelajari cara melakukan de-identifikasi data sensitif yang disimpan di Cloud Storage menggunakan konsol Google Cloud.
- Ikuti codelab Membuat Salinan Data yang Dide-identifikasi di Cloud Storage.
- Pelajari cara memeriksa penyimpanan untuk menemukan data sensitif.