De-identifikasi data Cloud Storage sensitif

Halaman ini menjelaskan cara Perlindungan Data Sensitif dapat membuat salinan data yang telah dide-identifikasi dan disimpan di Cloud Storage. Halaman ini juga mencantumkan batasan operasi ini dan poin yang harus Anda pertimbangkan sebelum memulai.

Untuk informasi tentang cara menggunakan Perlindungan Data Sensitif untuk membuat salinan data Cloud Storage yang telah dide-identifikasi, lihat referensi berikut:

Tentang de-identifikasi

De-identifikasi adalah proses penghapusan informasi identitas dari data. Tujuannya adalah untuk memungkinkan penggunaan dan pembagian informasi pribadi—seperti informasi kesehatan, keuangan, atau demografi —sambil memenuhi persyaratan privasi. Untuk mengetahui informasi selengkapnya tentang de-identifikasi, lihat Melakukan de-identifikasi data sensitif.

Untuk informasi yang lebih mendalam tentang transformasi de-identifikasi di Perlindungan Data Sensitif, lihat Referensi transformasi. Untuk mengetahui informasi selengkapnya tentang cara Perlindungan Data Sensitif menyamarkan data sensitif dari gambar, lihat Pemeriksaan dan penyamaran gambar.

Kapan harus menggunakan fitur ini

Fitur ini berguna jika file yang Anda gunakan dalam operasi bisnis berisi data sensitif, seperti informasi identitas pribadi (PII). Fitur ini memungkinkan Anda menggunakan dan membagikan informasi sebagai bagian dari proses bisnis, sekaligus menjaga bagian data sensitif tetap tersembunyi.

Proses de-identifikasi

Bagian ini menjelaskan proses de-identifikasi di Sensitive Data Protection untuk konten di Cloud Storage.

Untuk menggunakan fitur ini, Anda membuat tugas inspeksi (DlpJob) yang dikonfigurasi untuk membuat salinan file Cloud Storage yang telah di-de-identifikasi. Perlindungan Data Sensitif memindai file di lokasi yang ditentukan, memeriksanya sesuai dengan konfigurasi Anda. Saat memeriksa setiap file, Sensitive Data Protection akan melakukan de-identifikasi data apa pun yang cocok dengan kriteria Anda untuk data sensitif, lalu menulis konten ke file baru. File baru selalu memiliki nama file yang sama dengan file asli. File ini akan disimpan di direktori output yang Anda tentukan. Jika file disertakan dalam pemindaian, tetapi tidak ada data yang cocok dengan kriteria de-identifikasi Anda, dan tidak ada error dalam pemrosesannya, file tersebut akan disalin, tanpa diubah, ke direktori output.

Direktori output yang Anda tetapkan harus berada di bucket Cloud Storage yang berbeda dengan bucket yang berisi file input Anda. Di direktori output, Perlindungan Data Sensitif membuat struktur file yang mencerminkan struktur file direktori input.

Misalnya, Anda menetapkan direktori input dan output berikut:

  • Direktori input: gs://input-bucket/folder1/folder1a
  • Direktori output: gs://output-bucket/output-directory

Selama de-identifikasi, Perlindungan Data Sensitif menyimpan file yang dide-identifikasi di gs://output-bucket/output-directory/folder1/folder1a.

Jika file ada di direktori output dengan nama file yang sama dengan file yang dideidentifikasi, file tersebut akan ditimpa. Jika Anda tidak ingin file yang ada ditimpa, ubah direktori output sebelum menjalankan operasi ini. Atau, pertimbangkan untuk mengaktifkan pembuatan versi objek di bucket output.

Daftar kontrol akses (ACL) tingkat file untuk file asli akan disalin ke file baru, terlepas dari apakah data sensitif ditemukan dan dide-identifikasi. Namun, jika bucket output hanya dikonfigurasi untuk izin level bucket uniform, dan bukan izin terperinci (level objek), ACL tidak akan disalin ke file yang dide-identifikasi.

Diagram berikut menunjukkan proses de-identifikasi untuk empat file yang disimpan di bucket Cloud Storage. Setiap file disalin, terlepas dari apakah Perlindungan Data Sensitif mendeteksi data sensitif apa pun. Setiap file yang disalin diberi nama yang sama dengan file aslinya.

De-identifikasi file yang disimpan di Cloud Storage.
De-identifikasi file yang disimpan di Cloud Storage (klik untuk memperbesar).

Harga

Untuk mengetahui informasi harga, lihat Pemeriksaan dan transformasi data dalam penyimpanan.

Jenis file yang didukung

Perlindungan Data Sensitif dapat melakukan de-identifikasi grup jenis file berikut:

  • CSV
  • Gambar
  • Teks
  • TSV

Perilaku de-identifikasi default

Jika ingin menentukan cara Perlindungan Data Sensitif mengubah temuan, Anda dapat memberikan template de-identifikasi untuk jenis file berikut:

  • File tidak terstruktur, seperti file teks dengan teks bentuk bebas
  • File terstruktur, seperti file CSV
  • Image

Jika Anda tidak memberikan template de-identifikasi, Perlindungan Data Sensitif akan mengubah temuan sebagai berikut:

  • Dalam file terstruktur dan tidak terstruktur, Perlindungan Data Sensitif mengganti semua temuan dengan infoType yang sesuai, seperti yang dijelaskan dalam Penggantian InfoType.
  • Dalam gambar, Perlindungan Data Sensitif akan menutupi semua temuan dengan kotak hitam.

Batasan dan pertimbangan

Pertimbangkan poin-poin berikut sebelum membuat salinan data Cloud Storage yang telah dide-identifikasi.

Kapasitas disk

Operasi ini hanya mendukung konten yang disimpan di Cloud Storage.

Operasi ini membuat salinan setiap file saat Sensitive Data Protection memeriksanya. Tindakan ini tidak mengubah atau menghapus konten asli. Data yang disalin akan menggunakan jumlah ruang disk tambahan yang kira-kira sama dengan data asli.

Akses tulis ke penyimpanan

Karena Perlindungan Data Sensitif membuat salinan file asli, agen layanan project Anda harus memiliki akses tulis di bucket output Cloud Storage.

Sampling dan menetapkan batas penemuan

Operasi ini tidak mendukung sampling. Secara khusus, Anda tidak dapat membatasi jumlah setiap file yang dipindai dan dide-identifikasi oleh Sensitive Data Protection. Artinya, jika menggunakan Cloud Data Loss Prevention API, Anda tidak dapat menggunakan bytesLimitPerFile dan bytesLimitPerFilePercent dalam objek CloudStorageOptions dari DlpJob.

Selain itu, Anda tidak dapat mengontrol jumlah maksimum temuan yang akan ditampilkan. Jika menggunakan DLP API, Anda tidak dapat menetapkan objek FindingLimits di DlpJob.

Persyaratan untuk memeriksa data

Saat menjalankan tugas pemeriksaan, Perlindungan Data Sensitif akan memeriksa data terlebih dahulu, sesuai dengan konfigurasi pemeriksaan Anda, sebelum melakukan de-identifikasi. Proses ini tidak dapat melewati proses pemeriksaan.

Persyaratan untuk menggunakan ekstensi file

Sensitive Data Protection mengandalkan ekstensi file untuk mengidentifikasi jenis file di direktori input Anda. File yang tidak memiliki ekstensi file mungkin tidak akan dideidentifikasi, meskipun file tersebut berjenis file yang didukung.

File yang dilewati

Saat melakukan de-identifikasi file dalam penyimpanan, Perlindungan Data Sensitif akan melewati file berikut:

  • File yang melebihi 60.000 KB. Jika Anda memiliki file besar yang melebihi batas ini, pertimbangkan untuk membaginya menjadi beberapa potongan yang lebih kecil.
  • File dari jenis yang tidak didukung. Untuk daftar jenis file yang didukung, lihat Jenis file yang didukung di halaman ini.
  • Jenis file yang sengaja Anda kecualikan dari konfigurasi de-identifikasi. Jika Anda menggunakan DLP API, jenis file yang Anda kecualikan dari kolom file_types_to_transform tindakan Deidentify dari DlpJob akan dilewati.
  • File yang mengalami error transformasi.

Urutan baris output dalam tabel yang dide-identifikasi

Tidak ada jaminan bahwa urutan baris dalam tabel yang dide-identifikasi cocok dengan urutan baris dalam tabel asli. Jika ingin membandingkan tabel asli dengan tabel yang dide-identifikasi, Anda tidak dapat mengandalkan nomor baris untuk mengidentifikasi baris yang sesuai. Jika ingin membandingkan baris tabel, Anda harus menggunakan ID unik untuk mengidentifikasi setiap kumpulan data.

Kunci sementara

Jika memilih metode kriptografis sebagai metode transformasi, Anda harus membuat kunci yang digabungkan menggunakan Cloud Key Management Service terlebih dahulu. Kemudian, berikan kunci tersebut di template de-identifikasi Anda. Kunci sementara (mentah) tidak didukung.

Langkah selanjutnya