Dokumen ini membahas tentang cara menggunakan Perlindungan Data Sensitif untuk membuat pipeline transformasi data otomatis guna melakukan de-identifikasi data sensitif seperti informasi identitas pribadi (PII). Teknik de-identifikasi seperti membuat token (pseudonymization) memungkinkan Anda mempertahankan utilitas data Anda untuk bergabung dan menganalisis sambil mengurangi resiko penanganan data dengan meng-obfuscate ID sensitif mentah. Untuk meminimalkan risiko penanganan data sensitif dalam jumlah besar, Anda dapat menggunakan alur transformasi data otomatis untuk membuat replika yang tidak teridentifikasi. Perlindungan Data Sensitif memungkinkan transformasi seperti penghapusan, penyamaran, tokenisasi, bucketing, dan metode de-identifikasi lainnya.. Jika set data belum dikarakterisasi, Perlindungan Data Sensitif juga dapat memeriksa data untuk menemukan informasi sensitif menggunakan lebih dari 100 pengklasifikasi bawaan.
Dokumen ini ditujukan untuk audiens teknis yang tanggung jawabnya mencakup keamanan data, pemrosesan data, atau analisis data. Panduan ini mengasumsikan bahwa Anda sudah memahami pemrosesan data dan privasi data, tanpa perlu menjadi ahlinya.
Arsitektur referensi
Diagram berikut menunjukkan arsitektur referensi untuk menggunakan produk Google Cloud yang berfungsi menambahkan lapisan keamanan ke set data sensitif menggunakan teknik de-identifikasi.
Arsitektur ini terdiri dari hal-hal berikut:
Pipeline streaming de-identifikasi data: De-identifikasi data sensitif dalam teks menggunakan Dataflow. Anda dapat menggunakan kembali pipeline ini untuk beberapa transformasi dan kasus penggunaan lain.
Pengelolaan konfigurasi (template dan kunci Perlindungan Data Sensitif): Konfigurasi de-identifikasi terkelola yang hanya dapat diakses oleh sekelompok kecil orang —misalnya, admin keamanan—untuk menghindari paparan metode de-identifikasi dan kunci enkripsi.
Validasi data dan identifikasi ulang Pipeline: Memvalidasi salinan data yang dide-identifikasi dan menggunakan pipeline Dataflow untuk mengidentifikasi ulang ulang data dalam skala besar.
Membantu mengamankan data sensitif
Salah satu tugas utama perusahaan mana pun adalah membantu memastikan keamanan data pengguna dan karyawannya. Google Cloud menyediakan langkah-langkah keamanan bawaan untuk memfasilitasi keamanan data, termasuk enkripsi data yang disimpan dan enkripsi data dalam pengiriman.
Enkripsi dalam penyimpanan: Cloud Storage
Menjaga keamanan data sangat penting bagi sebagian besar organisasi. Akses tidak sah pada data sensitif yang cukup penting dapat merusak kepercayaan, hubungan, dan reputasi yang Anda miliki dengan pelanggan. Secara default, Google mengenkripsi data yang disimpan dalam penyimpanan. Secara default, setiap objek yang diupload ke bucket Cloud Storage akan dienkripsi menggunakan kunci milik dan dikelola Google. Jika set data Anda menggunakan metode enkripsi yang sudah ada dan memerlukan opsi non-default sebelum mengupload, ada opsi enkripsi lain yang disediakan oleh Cloud Storage. Untuk mengetahui informasi selengkapnya, lihat Opsi enkripsi data.
Enkripsi saat dalam pengiriman: Dataflow
Saat data Anda dalam pengiriman, enkripsi dalam penyimpanan tidak akan diterapkan. Selama transit, data dilindungi oleh protokol jaringan keamanan yang disebut sebagai enkripsi dalam pengiriman. Secara default, Dataflow menggunakan kunci milik Google dan dikelola Google. Tutorial terkait dokumen ini menggunakan pipeline otomatis yang menggunakan kunci default milik Google dan dikelola Google.
Transformasi data Perlindungan Data Sensitif
Ada dua jenis transformasi utama yang dilakukan oleh Perlindungan Data Sensitif:
Baik metode recordTransformations
maupun infoTypeTransformations
dapat
melakukan de-identifikasi dan mengenkripsikan informasi sensitif dalam data Anda. Misalnya, Anda dapat
mengubah nilai dalam kolom US_SOCIAL_SECURITY_NUMBER
agar
tidak dapat diidentifikasi atau menggunakan tokenisasi untuk menyamarkannya sekaligus mempertahankan
integritas referensial.
Metode infoTypeTransformations
memungkinkan Anda memeriksa data sensitif
dan mengubah temuan tersebut. Misalnya, jika Anda memiliki data yang tidak terstruktur atau berupa teks
bebas, metode infoTypeTransformations
dapat membantu Anda untuk mengidentifikasi SSN di dalam
kalimat dan mengenkripsi nilai SSN, sementara sisa teks tidak akan tersimpan
secara utuh. Anda juga dapat menentukan metode infoTypes
secara kustom.
Metode recordTransformations
memungkinkan Anda menerapkan konfigurasi
transformasi per kolom saat menggunakan data terstruktur atau tabel. Dengan metode
recordTransformations
Anda dapat menerapkan transformasi yang sama di setiap nilai
dalam kolom tersebut, seperti melakukan hashing atau membuat token disetiap nilai dalam kolom
dengan kolom SSN
sebagai kolom atau header nama.
Dengan metode recordTransformations
, Anda juga dapat menggabungkan metode
infoTypeTransformations
yang hanya berlaku untuk nilai di kolom
yang ditentukan. Misalnya, Anda dapat menggunakan metode infoTypeTransformations
di dalam metode
recordTransformations
untuk kolom bernama comments
guna menyamarkan temuan apa pun
untuk US_SOCIAL_SECURITY_NUMBER
yang ditemukan dalam teks di
bidang tersebut.
Dalam urutan kompleksitas yang semakin meningkat, proses de-identifikasi adalah sebagai berikut:
- Penghapusan: Menghapus konten sensitif tanpa penggantian konten.
- Penyamaran: Mengganti konten sensitif dengan karakter tetap.
- Enkripsi: Mengganti konten sensitif dengan string terenkripsi, mungkin secara terbalik.
Menangani data delimited
Sering kali, data terdiri dari kumpulan data yang dipisahkan oleh karakter yang dipilih, dengan jenis
tetap di setiap kolom seperti file CSV. Untuk class data ini, Anda dapat menerapkan
transformasi de-identifikasi (recordTransformations
) secara langsung, tanpa
memeriksa data. Misalnya, kolom berlabel SSN
hanya
akan berisi data SSN. Anda tidak perlu memeriksa data untuk mengetahui bahwa
detektor infoType
adalah US_SOCIAL_SECURITY_NUMBER
. Namun, kolom bentuk bebas
berlabel Additional Details
dapat berisi informasi sensitif, tetapi untuk
class infoType
tidak diketahui sebelumnya. Untuk kolom bentuk bebas, Anda harus memeriksa
detektor infoTypes
(infoTypeTransformations
) sebelum menerapkan transformasi de-identifikasi. Perlindungan Data Sensitif memungkinkan kedua jenis transformasi ini
untuk berdampingan dalam satu template de-identifikasi.
Perlindungan Data Sensitif mencakup
lebih dari 100 detektor infoTypes
bawaan.
Anda juga dapat membuat jenis kustom atau mengubah detektor infoTypes
bawaan untuk
menemukan data sensitif yang unik bagi organisasi Anda.
Menentukan jenis transformasi
Menentukan kapan harus menggunakan metode recordTransformations
atau infoTypeTransformations
bergantung pada kasus penggunaan Anda. Karena penggunaan metode infoTypeTransformations
memerlukan lebih banyak resource sehingga lebih mahal, sebaiknya menggunakan
metode ini hanya untuk situasi ketika jenis datanya tidak diketahui. Anda dapat mengevaluasi
biaya untuk menjalankan Perlindungan Data Sensitif menggunakan
kalkulator harga Google Cloud.
Untuk contoh transformasi, dokumen ini mengacu pada set data yang berisi file CSV dengan kolom tetap, seperti yang ditunjukkan dalam tabel berikut.
Nama kolom | Pemeriksaan infoType (kustom atau bawaan) |
Jenis transformasi Perlindungan Data Sensitif |
---|---|---|
Card Number
|
Tidak berlaku | Enkripsi deterministik (DE) |
Card Holder's Name
|
Tidak berlaku | Enkripsi deterministik (DE) |
Card PIN
|
Tidak berlaku | Hashing kripto |
SSN (Social Security Number)
|
Tidak berlaku | Penyamaran |
Age
|
Tidak berlaku | Pengelompokan |
Job Title
|
Tidak berlaku | Pengelompokan |
Additional Details
|
Bawaan:IBAN_CODE , EMAIL_ADDRESS ,
PHONE_NUMBER
Kustom:
ONLINE_USER_ID
|
Penggantian |
Tabel ini mencantumkan nama kolom dan menjelaskan jenis transformasi yang
diperlukan untuk setiap kolom. Misalnya, kolom Card Number
berisi nomor kartu
kredit yang perlu dienkripsi; namun, data tidak perlu
diperiksa karena jenis datanya (infoType
) telah diketahui.
Satu-satunya kolom tempat transformasi inspeksi direkomendasikan adalah
kolom Additional Details
. Kolom ini berbentuk bebas dan mungkin berisi PII,
yang untuk tujuan contoh ini harus dideteksi dan dide-identifikasi.
Contohnya, dalam tabel ini menyajikan lima transformasi de-identifikasi yang berbeda:
Tokenisasi dua arah: Mengganti data yang asli dengan token deterministik, dengan mempertahankan integritas referensial. Anda dapat menggunakan token tersebut untuk menggabungkan data atau menggunakan token tersebut dalam analisis agregat. Anda dapat membalikkan atau membatalkan token data menggunakan kunci yang sama dengan yang Anda gunakan untuk membuat token. Ada dua metode yang bisa digunakan untuk tokenisasi dua arah:
- Enkripsi deterministik (DE): Mengganti data asli dengan nilai terenkripsi berenkode base64 dan tidak mempertahankan himpunan atau panjang karakter asli.
- Enkripsi yang mempertahankan format dengan FFX (FPE-FFX): Mengganti data asli dengan token yang dibuat menggunakan enkripsi yang menjaga format dalam mode FFX. Secara desain, FPE-FFX mempertahankan panjang dan himpunan karakter teks input. Token ini tidak memiliki autentikasi dan vektor inisialisasi, yang dapat menyebabkan perluasan panjang pada token output. Metode lain seperti DE, memberikan keamanan yang lebih kuat dan direkomendasikan untuk kasus penggunaan tokenisasi, kecuali jika durasi dan penyimpanan kumpulan karakter adalah persyaratan yang ketat, seperti kompatibilitas mundur dengan sistem data lama.
Tokenisasi satu arah, menggunakan hashing kriptografi: Mengganti nilai asli dengan nilai yang di-hash, sehingga mempertahankan integritas referensial. Namun, tidak seperti tokenisasi dua arah, metode satu arah ini tidak dapat dibalik. Nilai hash dibuat menggunakan kode autentikasi pesan berbasis SHA-256 (HMAC-SHA-256) pada nilai input.
Penyamaran: Mengganti data asli dengan karakter yang ditentukan, baik sebagian maupun sepenuhnya.
Pengelompokan: Mengganti nilai yang lebih mudah diidentifikasi dengan nilai yang kurang membedakan.
Penggantian: Mengganti data asli dengan token atau nama
infoType
jika terdeteksi.
Pemilihan metode
Memilih metode de-identifikasi terbaik dapat bervariasi tergantung bagaimana kasus penggunaan Anda. Misalnya, jika pada aplikasi lamanya memproses data yang dide-identifikasi, penyimpanan format mungkin menjadi penting. Jika Anda menangani angka 10 digit yang diformat secara ketat, FPE mempertahankan panjang (10 digit) dan himpunan karakter (numerik) input untuk dukungan sistem lama.
Namun, jika pemformatan ketat tidak diperlukan untuk kompatibilitas lama, seperti
yang terjadi untuk nilai dalam kolom Card Holder's Name
, DE adalah
pilihan yang lebih disukai karena memiliki metode autentikasi yang lebih kuat. Baik pada FPE maupun
DE, tokennya dapat dibalik atau dihilangkan. Jika Anda tidak memerlukan
de-tokenisasi, maka hashing kriptografi akan memberikan integritas, tetapi token
tidak dapat dibalik.
Metode lain seperti masking, bucketing, pergeseran tanggal, dan penggantian, cocok untuk nilai yang tidak perlu mempertahankan nilai penuh integritas data. Misalnya, pengelompokan nilai usia (misalnya, 27) ke rentang usia (20-30) masih dapat dianalisis sekaligus mengurangi keunikan yang dapat menyebabkan identifikasi individu.
Kunci enkripsi token
Untuk transformasi de-identifikasi kriptografi, kunci kriptografis, yang juga dikenal sebagai kunci enkripsi token, diperlukan. Kunci enkripsi token yang digunakan untuk enkripsi de-identifikasi juga digunakan untuk mengidentifikasi ulang nilai asli. Pembuatan dan pengelolaan kunci enkripsi token yang aman berada di luar cakupan dokumen ini. Namun, ada beberapa prinsip penting yang perlu dipertimbangkan penggunaannya nanti dalam tutorial terkait:
- Hindari penggunaan kunci teks biasa di dalam template. Sebagai gantinya, gunakan Cloud KMS untuk membuat kunci yang digabungkan.
- Gunakan kunci enkripsi token terpisah untuk setiap elemen data guna mengurangi resiko penyusupan kunci.
- Merotasikan kunci enkripsi token. Meskipun Anda dapat merotasi kunci yang digabungkan, merotasi kunci enkripsi token akan merusak integritas tokenisasi. Saat kunci dirotasi, Anda perlu memberi token ulang pada seluruh set data.
Template Perlindungan Data Sensitif
Untuk deployment skala besar, gunakan template Perlindungan Data Sensitif guna menyelesaikan hal berikut:
- Aktifkan kontrol keamanan dengan Identity and Access Management (IAM).
- Pisahkan informasi konfigurasi, dan cara Anda melakukan de-identifikasi informasi tersebut, dari penerapan permintaan Anda.
- Menggunakan kembali kumpulan transformasi. Anda dapat menggunakan fitur de-identifikasi dan mengidentifikasi ulang template pada beberapa set data.
BigQuery
Komponen akhir arsitektur referensi adalah melihat dan menangani data yang telah di de-identifikasi di BigQuery. BigQuery adalah alat data warehouse dari Google yang mencakup infrastruktur tanpa server, BigQuery ML, dan kemampuan untuk menjalankan Perlindungan Data Sensitif sebagai alat native. Dalam contoh arsitektur referensi, BigQuery berfungsi sebagai data warehouse untuk data yang telah di de-identifikasi dan sebagai backend untuk pipeline data identifikasi ulang otomatis yang dapat berbagi data melalui Pub/Sub.
Langkah berikutnya
- Pelajari cara menggunakan Perlindungan Data Sensitif untuk memeriksa penyimpanan dan database guna menemukan data sensitif.
- Pelajari solusi pengenalan pola lainnya.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.