Generalisasi adalah proses mengambil nilai pembeda dan membuatnya menjadi nilai yang lebih umum dan kurang membedakan. Generalisasi mencoba mempertahankan utilitas data sekaligus mengurangi kemampuan untuk mengidentifikasi data.
Dapat ada banyak tingkat generalisasi, bergantung pada jenis data. Seberapa banyak generalisasi yang diperlukan adalah sesuatu yang dapat Anda ukur di seluruh set data atau populasi dunia nyata menggunakan teknik seperti yang disertakan dalam analisis risiko Sensitive Data Protection.
Salah satu teknik generalisasi umum yang didukung Sensitive Data Protection adalah bucketing. Dengan bucketing, Anda mengelompokkan data ke dalam bucket yang lebih kecil dalam upaya untuk meminimalkan risiko penyerang mengaitkan informasi sensitif dengan informasi identitas. Tindakan ini dapat mempertahankan makna dan kegunaan, tetapi juga akan mengaburkan nilai individual yang memiliki terlalu sedikit peserta.
Skenario pengelompokan 1
Pertimbangkan skenario pengelompokan numerik ini: Database menyimpan skor kepuasan pengguna, yang berkisar dari 0 hingga 100. Database akan terlihat seperti berikut:
user_id | skor |
---|---|
1 | 100 |
2 | 100 |
3 | 92 |
... | ... |
Setelah mengamati data, Anda menyadari bahwa beberapa nilai jarang digunakan oleh pengguna. Bahkan, ada beberapa skor yang hanya dipetakan ke satu pengguna. Misalnya, sebagian besar pengguna memilih 0, 25, 50, 75, atau 100. Namun, lima pengguna memilih 95, dan hanya satu pengguna yang memilih 92. Daripada menyimpan data mentah, Anda dapat memgeneralisasi nilai ini ke dalam grup dan menghilangkan grup dengan terlalu sedikit peserta. Bergantung pada cara data digunakan, mengeneralisasi data dengan cara ini dapat membantu mencegah identifikasi ulang.
Anda dapat memilih untuk menghapus baris data outlier ini, atau Anda dapat mencoba mempertahankan kegunaannya dengan menggunakan bucketing. Untuk contoh ini, mari kita kelompokkan semua nilai sesuai dengan hal berikut:
- 0 hingga 25: "Rendah"
- 26-75: "Sedang"
- 76-100: "Tinggi"
Bucketing di Perlindungan Data Sensitif adalah salah satu dari banyak transformasi primitif
yang tersedia untuk de-identifikasi. Konfigurasi JSON berikut
mengilustrasikan cara menerapkan skenario bucketing ini di
DLP API. JSON ini dapat disertakan dalam permintaan ke metode
content.deidentify
:
C#
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
PHP
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat library klien Perlindungan Data Sensitif.
Untuk melakukan autentikasi ke Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
REST
... { "primitiveTransformation": { "bucketingConfig": { "buckets": [ { "min": { "integerValue": "0" }, "max": { "integerValue": "25" }, "replacementValue": { "stringValue": "Low" } }, { "min": { "integerValue": "26" }, "max": { "integerValue": "75" }, "replacementValue": { "stringValue": "Medium" } }, { "min": { "integerValue": "76" }, "max": { "integerValue": "100" }, "replacementValue": { "stringValue": "High" } } ] } } } ...
Skenario pengelompokan 2
Bucketing juga dapat digunakan pada string atau nilai yang dihitung. Misalnya, Anda ingin membagikan data gaji dan menyertakan jabatan. Namun, beberapa jabatan, seperti CEO atau engineer terkemuka, dapat ditautkan ke satu orang atau sekelompok orang. Gelar pekerjaan tersebut mudah dicocokkan dengan karyawan yang memilikinya.
Bucketing juga dapat membantu di sini. Alih-alih menyertakan jabatan pekerjaan yang tepat, generalisasi dan kelompokkan jabatan tersebut. Misalnya, "Senior Engineer", "Junior Engineer", dan "Distinguished Engineer" menjadi umum dan dikelompokkan ke dalam "Engineer". Tabel berikut mengilustrasikan pengelompokan judul pekerjaan tertentu ke dalam grup judul pekerjaan.
Skenario lainnya
Dalam contoh ini, kami telah menerapkan transformasi ke data terstruktur. Bucketing juga dapat digunakan pada contoh tidak terstruktur, selama nilai dapat diklasifikasikan dengan infoType standar atau kustom. Berikut adalah beberapa contoh skenario:
- Mengklasifikasikan tanggal dan mengelompokkan tanggal ke dalam rentang tahun
- Mengelompokkan nama dan mengelompokkan nama ke dalam grup berdasarkan huruf pertama (A-M, N-Z)
Resource
Untuk mempelajari generalisasi dan pengelompokan lebih lanjut, lihat Melakukan De-identifikasi Data Sensitif dalam Konten Teks.
Untuk dokumentasi API, lihat:
- Metode
projects.content.deidentify
- Transformasi
BucketingConfig
: Mengelompokkan nilai berdasarkan rentang kustom. - Transformasi
FixedSizeBucketingConfig
: Mengelompokkan nilai berdasarkan rentang ukuran tetap.