De-identifikasi data Cloud Storage yang sensitif

Halaman ini menjelaskan bagaimana Perlindungan Data Sensitif dapat membuat salinan data yang disimpan di Cloud Storage tanpa identitas. Panduan ini juga mencantumkan batasan operasi ini dan poin-poin yang harus Anda pertimbangkan sebelum memulai.

Untuk mengetahui informasi tentang cara menggunakan Perlindungan Data Sensitif untuk membuat salinan data Cloud Storage yang dide-identifikasi, lihat referensi berikut:

Tentang de-identifikasi

De-identifikasi adalah proses menghapus informasi identitas dari data. Tujuannya adalah memungkinkan penggunaan dan pembagian informasi pribadi—seperti informasi kesehatan, keuangan, atau demografis—sekaligus memenuhi persyaratan privasi. Untuk mengetahui informasi selengkapnya tentang de-identifikasi, lihat Melakukan de-identifikasi data sensitif.

Untuk informasi lebih mendalam tentang transformasi de-identifikasi dalam Perlindungan Data Sensitif, lihat Referensi transformasi. Untuk informasi selengkapnya tentang cara Perlindungan Data Sensitif menyamarkan data sensitif dari gambar, lihat Pemeriksaan dan penyamaran gambar.

Kapan harus menggunakan fitur ini

Fitur ini berguna jika file yang Anda gunakan dalam operasi bisnis berisi data sensitif, seperti informasi identitas pribadi (PII). Fitur ini memungkinkan Anda menggunakan dan membagikan informasi sebagai bagian dari proses bisnis Anda, sekaligus menyembunyikan bagian data yang sensitif.

Proses de-identifikasi

Bagian ini menjelaskan proses de-identifikasi di Perlindungan Data Sensitif untuk konten di Cloud Storage.

Untuk menggunakan fitur ini, buat tugas pemeriksaan (DlpJob) yang dikonfigurasi untuk membuat salinan file Cloud Storage yang telah dide-identifikasi. Perlindungan Data Sensitif memindai file di lokasi yang ditentukan, dan memeriksanya sesuai dengan konfigurasi Anda. Saat memeriksa setiap file, Perlindungan Data Sensitif melakukan de-identifikasi data apa pun yang cocok dengan kriteria Anda untuk data sensitif, lalu menulis konten ke file baru. File baru selalu memiliki nama file yang sama dengan file aslinya. Menyimpan file baru ini dalam direktori {i>output<i} yang Anda tentukan. Jika file disertakan dalam pemindaian, tetapi tidak ada data yang cocok dengan kriteria de-identifikasi, dan tidak ada error dalam pemrosesannya, file tersebut akan disalin, tidak diubah, ke direktori output.

Direktori output yang Anda tetapkan harus berada di bucket Cloud Storage yang berbeda dengan bucket yang berisi file input Anda. Dalam direktori output, Perlindungan Data Sensitif membuat struktur file yang mencerminkan struktur file direktori input.

Misalnya, anggaplah Anda menetapkan direktori input dan output berikut:

  • Direktori input: gs://input-bucket/folder1/folder1a
  • Direktori output: gs://output-bucket/output-directory

Selama de-identifikasi, Perlindungan Data Sensitif menyimpan file yang telah dide-identifikasi di gs://output-bucket/output-directory/folder1/folder1a.

Jika ada file di direktori output dengan nama file yang sama seperti file yang dide-identifikasi, file tersebut akan ditimpa. Jika Anda tidak ingin file yang sudah ada ditimpa, ubah direktori output sebelum menjalankan operasi ini. Atau, pertimbangkan untuk mengaktifkan pembuatan versi objek di bucket output.

Daftar kontrol akses (ACL) level file untuk file asli disalin ke file baru, terlepas dari apakah data sensitif ditemukan dan dide-identifikasi. Namun, jika bucket output dikonfigurasi hanya untuk izin level bucket yang seragam, dan bukan izin yang terperinci (level objek), ACL tidak akan disalin ke file yang telah dide-identifikasi.

Diagram berikut menunjukkan proses de-identifikasi untuk empat file yang disimpan di bucket Cloud Storage. Setiap file disalin terlepas dari apakah Perlindungan Data Sensitif mendeteksi data sensitif atau tidak. Setiap file yang disalin diberi nama sama dengan aslinya.

De-identifikasi file yang disimpan di Cloud Storage.
De-identifikasi file yang disimpan di Cloud Storage (klik untuk memperbesar).

Harga

Untuk mengetahui informasi harga, lihat Pemeriksaan dan transformasi data dalam penyimpanan.

Jenis file yang didukung

Perlindungan Data Sensitif dapat melakukan de-identifikasi grup jenis file berikut:

  • CSV
  • Gambar
  • Teks
  • TSV

Perilaku de-identifikasi default

Jika ingin menentukan cara Perlindungan Data Sensitif mentransformasi temuan, Anda dapat memberikan template de-identifikasi untuk jenis file berikut:

  • File tidak terstruktur, seperti file teks dengan teks bentuk bebas
  • File terstruktur, seperti file CSV
  • Image

Jika Anda tidak memberikan template de-identifikasi apa pun, Perlindungan Data Sensitif akan mentransformasi temuan sebagai berikut:

  • Pada file tidak terstruktur dan terstruktur, Perlindungan Data Sensitif mengganti semua temuan dengan infoType yang sesuai, seperti yang dijelaskan dalam penggantian InfoType.
  • Dalam gambar, Perlindungan Data Sensitif mencakup semua temuan dengan kotak hitam.

Batasan dan pertimbangan

Pertimbangkan poin-poin berikut sebelum membuat salinan data Cloud Storage yang telah dide-identifikasi.

Kapasitas disk

Operasi ini hanya mendukung konten yang disimpan di Cloud Storage.

Operasi ini membuat salinan setiap file saat Perlindungan Data Sensitif memeriksanya. Tindakan ini tidak mengubah atau menghapus konten asli. Data yang disalin akan menggunakan jumlah kapasitas disk tambahan yang kurang lebih sama dengan data asli.

Akses tulis ke penyimpanan

Karena Perlindungan Data Sensitif membuat salinan file asli, agen layanan project Anda harus memiliki akses tulis di bucket output Cloud Storage.

Pengambilan sampel dan penetapan batas penemuan

Operasi ini tidak mendukung pengambilan sampel. Secara khusus, Anda tidak dapat membatasi jumlah pemindaian dan de-identifikasi dari setiap file yang dipindai oleh Perlindungan Data Sensitif. Artinya, jika menggunakan Cloud Data Loss Prevention API, Anda tidak dapat menggunakan bytesLimitPerFile dan bytesLimitPerFilePercent dalam objek CloudStorageOptions dari DlpJob.

Selain itu, Anda tidak dapat mengontrol jumlah maksimum temuan yang akan ditampilkan. Jika menggunakan DLP API, Anda tidak dapat menetapkan objek FindingLimits di DlpJob.

Persyaratan untuk memeriksa data

Saat menjalankan tugas pemeriksaan, Perlindungan Data Sensitif akan memeriksa data terlebih dahulu, sesuai dengan konfigurasi pemeriksaan Anda, sebelum melakukan de-identifikasi. Aplikasi tidak dapat melewati proses pemeriksaan.

Persyaratan untuk menggunakan ekstensi file

Perlindungan Data Sensitif mengandalkan ekstensi file untuk mengidentifikasi jenis file dari file dalam direktori input Anda. Fitur ini mungkin tidak melakukan de-identifikasi file yang tidak memiliki ekstensi file, meskipun file tersebut adalah jenis yang didukung.

File yang dilewati

Saat melakukan de-identifikasi file di penyimpanan, Perlindungan Data Sensitif akan melewati file berikut:

  • File yang melebihi 60.000 KB. Jika Anda memiliki file besar yang melebihi batas ini, sebaiknya bagi file tersebut menjadi bagian yang lebih kecil.
  • Jenis file yang tidak didukung. Untuk daftar jenis file yang didukung, lihat Jenis file yang didukung di halaman ini.
  • Jenis file yang sengaja Anda kecualikan dari konfigurasi de-identifikasi. Jika Anda menggunakan DLP API, jenis file yang Anda kecualikan dari kolom file_types_to_transform tindakan Deidentify dari DlpJob Anda akan dilewati.
  • File yang mengalami error transformasi.

Urutan baris output dalam tabel yang dide-identifikasi

Tidak ada jaminan bahwa urutan baris dalam tabel yang dide-identifikasi sesuai dengan urutan baris di tabel asli. Jika ingin membandingkan tabel asli dengan tabel yang telah dide-identifikasi, Anda tidak dapat mengandalkan nomor baris untuk mengidentifikasi baris yang sesuai. Jika ingin membandingkan baris tabel, Anda harus menggunakan ID unik untuk mengidentifikasi setiap data.

Kunci sementara

Jika memilih metode kriptografi sebagai metode transformasi, Anda harus membuat kunci gabungan terlebih dahulu menggunakan Cloud Key Management Service. Kemudian, berikan kunci tersebut di template de-identifikasi Anda. Kunci sementara (raw) tidak didukung.

Langkah selanjutnya