De-identifikasi dan identifikasi ulang PII dalam set data berskala besar menggunakan Perlindungan Data Sensitif

Last reviewed 2022-08-11 UTC

Dokumen ini membahas tentang cara menggunakan Perlindungan Data Sensitif untuk membuat pipeline transformasi data otomatis guna melakukan de-identifikasi data sensitif seperti informasi identitas pribadi (PII). Teknik de-identifikasi seperti membuat token (pseudonymization) memungkinkan Anda mempertahankan utilitas data Anda untuk bergabung dan menganalisis sambil mengurangi resiko penanganan data dengan meng-obfuscate ID sensitif mentah. Untuk meminimalkan risiko penanganan data sensitif dalam jumlah besar, Anda dapat menggunakan alur transformasi data otomatis untuk membuat replika yang tidak teridentifikasi. Perlindungan Data Sensitif memungkinkan transformasi seperti penghapusan, penyamaran, tokenisasi, bucketing, dan metode de-identifikasi lainnya.. Jika set data belum dikarakterisasi, Perlindungan Data Sensitif juga dapat memeriksa data untuk menemukan informasi sensitif menggunakan lebih dari 100 pengklasifikasi bawaan.

Dokumen ini ditujukan untuk audiens teknis yang tanggung jawabnya mencakup keamanan data, pemrosesan data, atau analisis data. Panduan ini mengasumsikan bahwa Anda sudah memahami pemrosesan data dan privasi data, tanpa perlu menjadi ahlinya.

Arsitektur referensi

Diagram berikut menunjukkan arsitektur referensi untuk menggunakan produk Google Cloud yang berfungsi menambahkan lapisan keamanan ke set data sensitif menggunakan teknik de-identifikasi.

Arsitektur pipeline de-identifikasi, pengelolaan konfigurasi, dan pipeline identifikasi ulang.

Arsitektur ini terdiri dari hal-hal berikut:

  • Pipeline streaming de-identifikasi data: De-identifikasi data sensitif dalam teks menggunakan Dataflow. Anda dapat menggunakan kembali pipeline ini untuk beberapa transformasi dan kasus penggunaan lain.

  • Pengelolaan konfigurasi (template dan kunci Perlindungan Data Sensitif): Konfigurasi de-identifikasi terkelola yang hanya dapat diakses oleh sekelompok kecil orang —misalnya, admin keamanan—untuk menghindari paparan metode de-identifikasi dan kunci enkripsi.

  • Validasi data dan identifikasi ulang Pipeline: Memvalidasi salinan data yang dide-identifikasi dan menggunakan pipeline Dataflow untuk mengidentifikasi ulang ulang data dalam skala besar.

Membantu mengamankan data sensitif

Salah satu tugas utama perusahaan mana pun adalah membantu memastikan keamanan data pengguna dan karyawannya. Google Cloud menyediakan langkah-langkah keamanan bawaan untuk memfasilitasi keamanan data, termasuk enkripsi data yang disimpan dan enkripsi data dalam pengiriman.

Enkripsi dalam penyimpanan: Cloud Storage

Menjaga keamanan data sangat penting bagi sebagian besar organisasi. Akses tidak sah pada data sensitif yang cukup penting dapat merusak kepercayaan, hubungan, dan reputasi yang Anda miliki dengan pelanggan. Secara default, Google mengenkripsi data yang disimpan dalam penyimpanan. Secara default, setiap objek yang diupload pada bucket Cloud Storage akan dienkripsi menggunakan kunci enkripsi yang dikelola Google. Jika set data Anda menggunakan metode enkripsi yang sudah ada dan memerlukan opsi non-default sebelum mengupload, ada opsi enkripsi lain yang disediakan oleh Cloud Storage. Untuk mengetahui informasi selengkapnya, lihat Opsi enkripsi data.

Enkripsi saat dalam pengiriman: Dataflow

Saat data Anda dalam pengiriman, enkripsi dalam penyimpanan tidak akan diterapkan. Selama transit, data dilindungi oleh protokol jaringan keamanan yang disebut sebagai enkripsi dalam pengiriman. Secara default, Dataflow menggunakan kunci enkripsi yang dikelola oleh Google. Tutorial terkait dokumen ini menggunakan pipeline otomatis yang menggunakan kunci enkripsi dari Google default.

Transformasi data Perlindungan Data Sensitif

Ada dua jenis transformasi utama yang dilakukan oleh Perlindungan Data Sensitif:

Baik metode recordTransformations maupun infoTypeTransformations dapat melakukan de-identifikasi dan mengenkripsikan informasi sensitif dalam data Anda. Misalnya, Anda dapat mengubah nilai dalam kolom US_SOCIAL_SECURITY_NUMBER agar tidak dapat diidentifikasi atau menggunakan tokenisasi untuk menyamarkannya sekaligus mempertahankan integritas referensial.

Metode infoTypeTransformations memungkinkan Anda memeriksa data sensitif dan mengubah temuan tersebut. Misalnya, jika Anda memiliki data yang tidak terstruktur atau berupa teks bebas, metode infoTypeTransformations dapat membantu Anda untuk mengidentifikasi SSN di dalam kalimat dan mengenkripsi nilai SSN, sementara sisa teks tidak akan tersimpan secara utuh. Anda juga dapat menentukan metode infoTypes secara kustom.

Metode recordTransformations memungkinkan Anda menerapkan konfigurasi transformasi per kolom saat menggunakan data terstruktur atau tabel. Dengan metode recordTransformations Anda dapat menerapkan transformasi yang sama di setiap nilai dalam kolom tersebut, seperti melakukan hashing atau membuat token disetiap nilai dalam kolom dengan kolom SSN sebagai kolom atau header nama.

Dengan metode recordTransformations , Anda juga dapat menggabungkan metode infoTypeTransformations yang hanya berlaku untuk nilai di kolom yang ditentukan. Misalnya, Anda dapat menggunakan metode infoTypeTransformations di dalam metode recordTransformations untuk kolom bernama comments guna menyamarkan temuan apa pun untuk US_SOCIAL_SECURITY_NUMBER yang ditemukan dalam teks di bidang tersebut.

Dalam urutan kompleksitas yang semakin meningkat, proses de-identifikasi adalah sebagai berikut:

  • Penghapusan: Menghapus konten sensitif tanpa penggantian konten.
  • Penyamaran: Mengganti konten sensitif dengan karakter tetap.
  • Enkripsi: Mengganti konten sensitif dengan string terenkripsi, mungkin secara terbalik.

Menangani data delimited

Sering kali, data terdiri dari kumpulan data yang dipisahkan oleh karakter yang dipilih, dengan jenis tetap di setiap kolom seperti file CSV. Untuk class data ini, Anda dapat menerapkan transformasi de-identifikasi (recordTransformations) secara langsung, tanpa memeriksa data. Misalnya, kolom berlabel SSN hanya akan berisi data SSN. Anda tidak perlu memeriksa data untuk mengetahui bahwa detektor infoType adalah US_SOCIAL_SECURITY_NUMBER. Namun, kolom bentuk bebas berlabel Additional Details dapat berisi informasi sensitif, tetapi untuk class infoType tidak diketahui sebelumnya. Untuk kolom bentuk bebas, Anda harus memeriksa detektor infoTypes (infoTypeTransformations) sebelum menerapkan transformasi de-identifikasi. Perlindungan Data Sensitif memungkinkan kedua jenis transformasi ini untuk berdampingan dalam satu template de-identifikasi. Perlindungan Data Sensitif mencakup lebih dari 100 detektor infoTypes bawaan. Anda juga dapat membuat jenis kustom atau mengubah detektor infoTypes bawaan untuk menemukan data sensitif yang unik bagi organisasi Anda.

Menentukan jenis transformasi

Menentukan kapan harus menggunakan metode recordTransformations atau infoTypeTransformations bergantung pada kasus penggunaan Anda. Karena penggunaan metode infoTypeTransformations memerlukan lebih banyak resource sehingga lebih mahal, sebaiknya menggunakan metode ini hanya untuk situasi ketika jenis datanya tidak diketahui. Anda dapat mengevaluasi biaya untuk menjalankan Perlindungan Data Sensitif menggunakan kalkulator harga Google Cloud.

Untuk contoh transformasi, dokumen ini mengacu pada set data yang berisi file CSV dengan kolom tetap, seperti yang ditunjukkan dalam tabel berikut.

Nama kolom Pemeriksaan infoType (kustom atau bawaan) Jenis transformasi Perlindungan Data Sensitif
Card Number Tidak berlaku Enkripsi deterministik (DE)
Card Holder's Name Tidak berlaku Enkripsi deterministik (DE)
Card PIN Tidak berlaku Hashing kripto
SSN (Social Security Number) Tidak berlaku Penyamaran
Age Tidak berlaku Pengelompokan
Job Title Tidak berlaku Pengelompokan
Additional Details Bawaan:
IBAN_CODE, EMAIL_ADDRESS, PHONE_NUMBER
Kustom:
ONLINE_USER_ID
Penggantian

Tabel ini mencantumkan nama kolom dan menjelaskan jenis transformasi yang diperlukan untuk setiap kolom. Misalnya, kolom Card Number berisi nomor kartu kredit yang perlu dienkripsi; namun, data tidak perlu diperiksa karena jenis datanya (infoType) telah diketahui.

Satu-satunya kolom tempat transformasi inspeksi direkomendasikan adalah kolom Additional Details. Kolom ini berbentuk bebas dan mungkin berisi PII, yang untuk tujuan contoh ini harus dideteksi dan dide-identifikasi.

Contohnya, dalam tabel ini menyajikan lima transformasi de-identifikasi yang berbeda:

  • Tokenisasi dua arah: Mengganti data yang asli dengan token deterministik, dengan mempertahankan integritas referensial. Anda dapat menggunakan token tersebut untuk menggabungkan data atau menggunakan token tersebut dalam analisis agregat. Anda dapat membalikkan atau membatalkan token data menggunakan kunci yang sama dengan yang Anda gunakan untuk membuat token. Ada dua metode yang bisa digunakan untuk tokenisasi dua arah:

    • Enkripsi deterministik (DE): Mengganti data asli dengan nilai terenkripsi berenkode base64 dan tidak mempertahankan himpunan atau panjang karakter asli.
    • Enkripsi yang mempertahankan format dengan FFX (FPE-FFX): Mengganti data asli dengan token yang dibuat menggunakan enkripsi yang menjaga format dalam mode FFX. Secara desain, FPE-FFX mempertahankan panjang dan himpunan karakter teks input. Token ini tidak memiliki autentikasi dan vektor inisialisasi, yang dapat menyebabkan perluasan panjang pada token output. Metode lain seperti DE, memberikan keamanan yang lebih kuat dan direkomendasikan untuk kasus penggunaan tokenisasi, kecuali jika durasi dan penyimpanan kumpulan karakter adalah persyaratan yang ketat, seperti kompatibilitas mundur dengan sistem data lama.
  • Tokenisasi satu arah, menggunakan hashing kriptografi: Mengganti nilai asli dengan nilai yang di-hash, sehingga mempertahankan integritas referensial. Namun, tidak seperti tokenisasi dua arah, metode satu arah ini tidak dapat dibalik. Nilai hash dibuat menggunakan kode autentikasi pesan berbasis SHA-256 (HMAC-SHA-256) pada nilai input.

  • Penyamaran: Mengganti data asli dengan karakter yang ditentukan, baik sebagian maupun sepenuhnya.

  • Pengelompokan: Mengganti nilai yang lebih mudah diidentifikasi dengan nilai yang kurang membedakan.

  • Penggantian: Mengganti data asli dengan token atau nama infoType jika terdeteksi.

Pemilihan metode

Memilih metode de-identifikasi terbaik dapat bervariasi tergantung bagaimana kasus penggunaan Anda. Misalnya, jika pada aplikasi lamanya memproses data yang dide-identifikasi, penyimpanan format mungkin menjadi penting. Jika Anda menangani angka 10 digit yang diformat secara ketat, FPE mempertahankan panjang (10 digit) dan himpunan karakter (numerik) input untuk dukungan sistem lama.

Namun, jika pemformatan ketat tidak diperlukan untuk kompatibilitas lama, seperti yang terjadi untuk nilai dalam kolom Card Holder's Name, DE adalah pilihan yang lebih disukai karena memiliki metode autentikasi yang lebih kuat. Baik pada FPE maupun DE, tokennya dapat dibalik atau dihilangkan. Jika Anda tidak memerlukan de-tokenisasi, maka hashing kriptografi akan memberikan integritas, tetapi token tidak dapat dibalik.

Metode lain seperti masking, bucketing, date-shifting, dan penggantian, cocok untuk nilai yang tidak perlu mempertahankan nilai penuh integritas data. Misalnya, pengelompokan nilai usia (misalnya, 27) ke rentang usia (20-30) masih dapat dianalisis sekaligus mengurangi keunikan yang dapat menyebabkan identifikasi individu.

Kunci enkripsi token

Untuk transformasi de-identifikasi kriptografi, kunci kriptografis, yang juga dikenal sebagai kunci enkripsi token, diperlukan. Kunci enkripsi token yang digunakan untuk enkripsi de-identifikasi juga digunakan untuk mengidentifikasi ulang nilai asli. Pembuatan dan pengelolaan kunci enkripsi token yang aman berada di luar cakupan dokumen ini. Namun, ada beberapa prinsip penting yang perlu dipertimbangkan penggunaannya nanti dalam tutorial terkait:

  • Hindari penggunaan kunci teks biasa di dalam template. Sebagai gantinya, gunakan Cloud KMS untuk membuat kunci yang digabungkan.
  • Gunakan kunci enkripsi token terpisah untuk setiap elemen data guna mengurangi resiko penyusupan kunci.
  • Merotasikan kunci enkripsi token. Meskipun Anda dapat merotasi kunci yang digabungkan, merotasi kunci enkripsi token akan merusak integritas tokenisasi. Saat kunci dirotasi, Anda perlu memberi token ulang pada seluruh set data.

Template Perlindungan Data Sensitif

Untuk deployment skala besar, gunakan template Perlindungan Data Sensitif guna menyelesaikan hal berikut:

  • Aktifkan kontrol keamanan dengan Identity and Access Management (IAM).
  • Pisahkan informasi konfigurasi, dan cara Anda melakukan de-identifikasi informasi tersebut, dari penerapan permintaan Anda.
  • Menggunakan kembali kumpulan transformasi. Anda dapat menggunakan fitur de-identifikasi dan mengidentifikasi ulang template pada beberapa set data.

BigQuery

Komponen akhir arsitektur referensi adalah melihat dan menangani data yang telah di de-identifikasi di BigQuery. BigQuery adalah alat data warehouse dari Google yang mencakup infrastruktur tanpa server, BigQuery ML, dan kemampuan untuk menjalankan Perlindungan Data Sensitif sebagai alat native. Dalam contoh arsitektur referensi, BigQuery berfungsi sebagai data warehouse untuk data yang telah di de-identifikasi dan sebagai backend untuk pipeline data identifikasi ulang otomatis yang dapat berbagi data melalui Pub/Sub.

Langkah selanjutnya