Generalisasi adalah proses mengambil nilai yang membedakan dan mengabstraksinya menjadi nilai yang lebih umum dan kurang membedakan. Generalisasi berupaya mempertahankan utilitas data sekaligus mengurangi identifikasi data.
Ada banyak tingkatan generalisasi tergantung pada tipe data. Seberapa banyak generalisasi yang diperlukan adalah sesuatu yang dapat Anda ukur di seluruh set data atau populasi dunia nyata menggunakan teknik seperti yang tercakup dalam analisis risiko Perlindungan Data Sensitif.
Salah satu teknik generalisasi umum yang didukung Perlindungan Data Sensitif adalah pengelompokan. Dengan pengelompokan, Anda mengelompokkan data ke dalam bucket yang lebih kecil sebagai upaya untuk meminimalkan risiko penyerang mengaitkan informasi sensitif dengan informasi identifikasi. Tindakan tersebut dapat mempertahankan makna dan kegunaan, tetapi juga akan mengaburkan nilai-nilai individual yang memiliki terlalu sedikit peserta.
Skenario bucketing 1
Pertimbangkan skenario pengelompokan numerik ini: Database menyimpan skor kepuasan pengguna yang berkisar dari 0 hingga 100. Database-nya terlihat seperti berikut ini:
user_id | skor |
---|---|
1 | 100 |
2 | 100 |
3 | 92 |
... | ... |
Memindai data, Anda menyadari bahwa beberapa nilai jarang digunakan oleh pengguna. Bahkan, ada beberapa skor yang dipetakan hanya ke satu pengguna. Misalnya, sebagian besar pengguna memilih 0, 25, 50, 75, atau 100. Namun, lima pengguna memilih 95, dan hanya satu pengguna yang memilih 92. Daripada menyimpan data mentah, Anda dapat menggeneralisasi nilai-nilai ini ke dalam beberapa kelompok dan menghilangkan grup dengan peserta yang terlalu sedikit. Bergantung pada cara data digunakan, generalisasi data dengan cara ini dapat membantu mencegah identifikasi ulang.
Anda dapat memilih untuk menghapus baris-baris data pencilan ini, atau mencoba mempertahankan utilitasnya dengan menggunakan bucketing. Untuk contoh ini, mari kita kelompokkan semua nilai sesuai dengan hal berikut:
- 0 hingga 25: "Rendah"
- 26-75: "Sedang"
- 76-100: "Tinggi"
Pembuatan bucket di Perlindungan Data Sensitif adalah salah satu dari banyak transformasi
primitif yang tersedia untuk de-identifikasi. Konfigurasi JSON
berikut mengilustrasikan cara menerapkan skenario bucketing ini di
DLP API. JSON ini dapat disertakan dalam permintaan ke metode content.deidentify
:
C#
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
PHP
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Perlindungan Data Sensitif, lihat Library klien Perlindungan Data Sensitif.
Untuk mengautentikasi Perlindungan Data Sensitif, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
REST
... { "primitiveTransformation": { "bucketingConfig": { "buckets": [ { "min": { "integerValue": "0" }, "max": { "integerValue": "25" }, "replacementValue": { "stringValue": "Low" } }, { "min": { "integerValue": "26" }, "max": { "integerValue": "75" }, "replacementValue": { "stringValue": "Medium" } }, { "min": { "integerValue": "76" }, "max": { "integerValue": "100" }, "replacementValue": { "stringValue": "High" } } ] } } } ...
Skenario bucketing 2
Bucket juga dapat digunakan pada string atau nilai yang dienumerasi. Misalkan Anda ingin membagikan data gaji dan menyertakan jabatan. Namun, beberapa jabatan, seperti CEO atau engineer ternama, dapat dikaitkan ke satu orang atau sekelompok kecil orang. Jabatan seperti itu mudah dicocokkan dengan karyawan yang memegangnya.
Pengelompokan juga dapat membantu dalam hal ini. Alih-alih memasukkan jabatan secara persis, lakukan generalisasi dan kelompokkan. Misalnya, "Senior Engineer," "Junior Engineer," dan "Distinguished Engineer" menjadi generalisasi dan dimasukkan ke dalam "Engineer" saja. Tabel berikut mengilustrasikan pengelompokan jabatan pekerjaan tertentu ke dalam kelompok jabatan.
Skenario lainnya
Dalam contoh ini, kita telah menerapkan transformasi ke data terstruktur. Bucket juga dapat digunakan pada contoh yang tidak terstruktur, selama nilainya dapat diklasifikasikan dengan infoType kustom atau bawaan. Berikut beberapa contoh skenario:
- Mengklasifikasikan tanggal dan mengelompokkannya ke dalam rentang tahun
- Mengklasifikasikan nama dan mengelompokkannya ke dalam grup berdasarkan huruf pertama (A-M, N-Z)
Referensi
Untuk mempelajari lebih lanjut generalisasi dan pengelompokan, lihat Melakukan De-identifikasi Data Sensitif dalam Konten Teks.
Untuk dokumentasi API, lihat:
- Metode
projects.content.deidentify
- Transformasi
BucketingConfig
: Nilai bucket berdasarkan rentang kustom. - Transformasi
FixedSizeBucketingConfig
: Nilai bucket berdasarkan rentang ukuran tetap.