Analisis risiko identifikasi ulang

Analisis risiko identifikasi ulang (atau hanya analisis risiko) adalah proses menganalisis data sensitif untuk menemukan properti yang mungkin akan meningkatkan risiko subjek yang sedang diidentifikasi, atau informasi sensitif tentang individu yang diungkapkan. Anda dapat menggunakan metode analisis risiko sebelum de-identifikasi untuk membantu menentukan strategi de-identifikasi yang efektif, atau setelah de-identifikasi untuk memantau perubahan atau outlier.

De-identifikasi adalah proses penghapusan informasi identitas dari data. Perlindungan Data Sensitif dapat mendeteksi dan mende-identifikasi data sensitif untuk Anda sesuai dengan cara Anda mengonfigurasinya agar sesuai dengan persyaratan organisasi Anda.

Sebaliknya, identifikasi ulang adalah proses pencocokan data yang dide-identifikasi dengan data lain yang tersedia untuk menentukan orang yang memiliki data tersebut. Re-identifikasi paling sering dibicarakan dalam konteks informasi pribadi sensitif, seperti data medis atau keuangan.

Untuk informasi selengkapnya tentang penggunaan Perlindungan Data Sensitif untuk mengukur berbagai jenis risiko, lihat Mengukur risiko identifikasi ulang dan pengungkapan.

Istilah dan teknik analisis risiko

Jika Anda tidak melakukan de-identifikasi data sensitif dengan benar atau memadai, Anda berisiko menjadi sasaran penyerang yang mengidentifikasi ulang data atau mempelajari informasi sensitif tentang individu, yang dapat memiliki implikasi privasi yang serius. Sensitive Data Protection dapat membantu menghitung risiko ini, sesuai dengan beberapa metrik.

Sebelum membahas metrik, kita akan menentukan beberapa istilah umum terlebih dahulu:

  • ID: ID dapat digunakan untuk mengidentifikasi individu secara unik. Misalnya, nama lengkap atau nomor KTP seseorang dianggap sebagai ID.
  • Quasi-ID: Quasi-ID tidak mengidentifikasi individu secara unik, tetapi, jika digabungkan dan direferensikan silang dengan setiap catatan, quasi-ID dapat meningkatkan kemungkinan penyerang mengidentifikasi ulang individu secara signifikan. Misalnya, kode pos dan usia dianggap sebagai quasi-ID.
  • Data sensitif: Data sensitif adalah data yang dilindungi dari paparan yang tidak sah. Atribut seperti kondisi kesehatan, gaji, tindak pidana, dan lokasi geografis biasanya dianggap sebagai data sensitif. Perhatikan bahwa mungkin ada tumpang-tindih antara ID dan data sensitif.
  • Kelas ekuivalensi: Kelas ekuivalensi adalah grup baris dengan quasi-ID yang identik.

Ada empat teknik yang dapat digunakan Perlindungan Data Sensitif untuk mengukur tingkat risiko yang terkait dengan set data:

  • k-anonymity: Properti set data yang menunjukkan pengidentifikasian ulang datanya. Set data bersifat k-anonim jika quasi-ID untuk setiap orang dalam set data identik dengan setidaknya k – 1 orang lain yang juga ada dalam set data.
  • l-diversity: Ekstensi dari k-anonymity yang juga mengukur keragaman nilai sensitif untuk setiap kolom tempat nilai tersebut muncul. Set data memiliki l-diversity jika, untuk setiap kumpulan baris dengan quasi-ID yang identik, setidaknya ada l nilai berbeda untuk setiap atribut sensitif.
  • k-map: Menghitung risiko identifikasi ulang dengan membandingkan set data subjek yang telah dide-identifikasi tertentu dengan set data identifikasi ulang—atau "serangan"—yang lebih besar. Sensitive Data Protection tidak mengetahui set data serangan, tetapi membuat modelnya secara statistik menggunakan data yang tersedia secara publik seperti Sensus AS, menggunakan model statistik kustom (ditunjukkan sebagai satu atau beberapa tabel BigQuery), atau dengan mengekstrapolasi dari distribusi nilai dalam set data input. Setiap set data—set data sampel dan set data re-identifikasi—berbagi satu atau beberapa kolom quasi-ID.
  • Kehadiran delta (δ-presence): Memperkirakan probabilitas pengguna tertentu dalam populasi yang lebih besar ada dalam set data. Ini digunakan jika keanggotaan dalam set data itu sendiri merupakan informasi sensitif. Serupa dengan peta k, Perlindungan Data Sensitif tidak mengetahui set data serangan, tetapi secara statistik membuat modelnya menggunakan data yang tersedia secara publik, distribusi yang ditentukan pengguna, atau ekstrapolasi dari set data input.

Tentang k-anonymity

Saat mengumpulkan data untuk tujuan riset, penghapusan identitas dapat menjadi hal yang penting untuk membantu menjaga privasi peserta. Pada saat yang sama, penghapusan identitas dapat menyebabkan set data kehilangan kegunaan praktisnya. k-anonymity dibuat dari kebutuhan untuk mengukur pengidentifikasian ulang set data dan untuk menyeimbangkan kegunaan data orang yang dihapus identitasnya dan privasi orang yang datanya digunakan. Ini adalah properti set data yang dapat digunakan untuk menilai pengidentifikasian ulang data dalam set data.

Sebagai contoh, pertimbangkan kumpulan data pasien:

ID Pasien Nama Lengkap Kode Pos Usia Kondisi ...
746572 John J. Jacobsen 98122 29 Penyakit jantung
652978 Debra D. Dreb 98115 29 Diabetes, Jenis II
075321 Abraham A. Abernathy 98122 54 Kanker, Hati
339012 Karen K. Krakow 98115 88 Penyakit jantung
995212 William W. Wertheimer 98115 54 Asma
...

Set data ini berisi ketiga jenis data yang telah kami jelaskan sebelumnya: ID, quasi-ID, dan data sensitif.

Jika data sensitif seperti kondisi kesehatan tidak disamarkan atau disamarkan, penyerang berpotensi dapat menggunakan quasi-ID yang dilampirkan ke setiap data, berpotensi melakukan referensi silang dengan set data lain yang berisi quasi-ID yang serupa, dan mengidentifikasi ulang orang-orang yang data sensitifnya berlaku.

Set data dikatakan k-anonim jika setiap kombinasi nilai untuk kolom demografis dalam set data muncul untuk setidaknya k kumpulan data yang berbeda. Ingat bahwa sekelompok baris dengan quasi-ID yang identik disebut "class ekuivalensi". Misalnya, jika Anda telah melakukan de-identifikasi pada quasi-ID sehingga ada minimal empat baris yang nilai quasi-ID-nya identik, nilai anonimitas k set data adalah 4.

ID entitas dan penghitungan k-anonymity

Opsi penting yang disertakan Perlindungan Data Sensitif saat menghitung anonimitas k adalah ID entitas (ID) opsional. ID entitas memungkinkan Anda menentukan anonimitas k secara lebih akurat dalam skenario umum saat beberapa baris set data Anda sesuai dengan pengguna yang sama. Jika tidak, jika setiap baris, terlepas dari pengguna, dihitung secara terpisah, total jumlah pengguna yang digunakan untuk menghitung nilai anonimitas k set data akan dibuat secara artifisial tinggi. Hal ini membuat nilai anonimitas k yang dihitung menjadi tidak akurat.

Pertimbangkan kumpulan data sederhana berikut:

ID Pengguna Kode pos (ZIP code)
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Tanpa menggunakan ID entitas untuk mencatat saat baris yang berbeda milik pengguna yang sama, jumlah total pengguna yang digunakan saat menghitung anonimitas k adalah 8, meskipun jumlah pengguna yang sebenarnya adalah 4. Dalam set data ini, menggunakan metode penghitungan k-anonimitas tradisional (tanpa ID entitas), 3 orang memiliki nilai k-anonimitas 3, dan 5 orang memiliki nilai k-anonimitas 5, meskipun hanya ada 4 orang yang sebenarnya dalam database.

Penggunaan ID entity menyebabkan Perlindungan Data Sensitif mempertimbangkan multiset kode pos yang dikaitkan dengan pengguna sebagai quasi-ID saat menghitung anonimitas k. Dalam contoh kita, sebenarnya ada tiga nilai quasi-ID "komposit" karena ada tiga kombinasi quasi-ID yang berbeda yang ditetapkan kepada pengguna: 42.000, multiset 17.000 dan 42.000, serta multiset 17.000, 42.000, dan 42.000. Keduanya sesuai dengan pengguna sebagai berikut:

  • [42000] dikaitkan dengan 1 pengguna unik (01).
  • [17000, 42000] dikaitkan dengan 2 pengguna unik (02 dan 04).
  • [17000, 42000, 42000] dikaitkan dengan 1 pengguna unik (03).

Seperti yang dapat Anda lihat, metode ini memperhitungkan bahwa pengguna mungkin muncul lebih dari sekali dalam database kode pos kami, dan metode ini memperlakukannya dengan semestinya saat menghitung anonimitas k.

Resource k-anonymity

Untuk informasi selengkapnya tentang anonimitas k, lihat Melindungi Privasi saat Mengungkapkan Informasi: Anonimitas k dan Penerapannya melalui Generalisasi dan Penekanan, oleh Pierangela Samarati dan Latanya Sweeney dari Data Privacy Lab Harvard University.

Untuk mempelajari cara menghitung k-anonymity dengan Perlindungan Data Sensitif, dengan atau tanpa ID entitas, lihat Menghitung k-anonymity untuk set data.

Tentang l-diversity

l-diversity sangat terkait dengan k-anonymity, dan dibuat untuk membantu mengatasi kerentanan set data yang dide-identifikasi terhadap serangan seperti:

  • Serangan homogenitas, yang dilakukan penyerang untuk memprediksi nilai sensitif untuk kumpulan data yang k-anonim dengan memanfaatkan homogenitas nilai dalam kumpulan data k.
  • Serangan pengetahuan latar belakang, yang dilakukan penyerang dengan memanfaatkan asosiasi antara nilai quasi-ID yang memiliki atribut sensitif tertentu untuk mempersempit kemungkinan nilai atribut.

l-diversity mencoba mengukur seberapa banyak penyerang dapat mempelajari orang dalam hal k-anonymity dan kelas ekuivalensi (kumpulan baris dengan nilai quasi-ID yang identik). Set data memiliki l-diversity jika, untuk setiap class kesetaraan, terdapat setidaknya l nilai unik untuk setiap atribut sensitif. Untuk setiap class ekuivalensi, berapa jumlah atribut sensitif dalam set data? Misalnya, jika l-diversity = 1, artinya semua orang memiliki atribut sensitif yang sama, jika l-diversity = 2, artinya semua orang memiliki salah satu dari dua atribut sensitif, dan seterusnya.

Resource l-diversity

Untuk informasi selengkapnya tentang l-diversity, lihat l-Diversity: Privacy Beyond k-Anonymity, oleh Ashwin Machanavajjhala, Johannes Gerke, dan Daniel Kifer dari Departemen Ilmu Komputer Cornell University.

Untuk mempelajari cara menghitung l-diversity dengan Perlindungan Data Sensitif, lihat Menghitung l-diversity untuk set data.

Tentang peta k

Peta k sangat mirip dengan k-anonymity, kecuali bahwa peta ini mengasumsikan bahwa penyerang kemungkinan besar tidak tahu siapa yang ada dalam set data. Gunakan peta k jika set data Anda relatif kecil, atau jika tingkat upaya yang terlibat dalam generalisasi atribut akan terlalu tinggi.

Sama seperti k-anonymity, k-map mengharuskan Anda menentukan kolom mana dalam database yang merupakan quasi-ID. Dengan melakukan hal ini, Anda menyatakan data yang kemungkinan besar akan digunakan penyerang untuk mengidentifikasi ulang subjek. Selain itu, penghitungan nilai peta k memerlukan set data re-identifikasi: tabel yang lebih besar untuk membandingkan baris dalam set data asli.

Pertimbangkan contoh set data kecil berikut. Data sampel ini adalah bagian dari database hipotetis yang lebih besar, yang dikumpulkan dari survei yang jawabannya menyertakan informasi sensitif.

Kode pos (ZIP code) age
85535 79
60629 42

Jika dilihat secara terpisah, informasi ini tampaknya memiliki jumlah yang sama untuk kedua individu. Faktanya, mempertimbangkan k-anonymity untuk set data yang lebih besar dapat mengarah pada pernyataan bahwa subjek yang sesuai dengan baris kedua sangat dapat diidentifikasi. Namun, jika mencadangkan dan mempertimbangkan data, Anda akan menyadari bahwa data tersebut tidak sama. Secara khusus, pertimbangkan kode pos 85535 Amerika Serikat, tempat sekitar 20 orang saat ini tinggal. Mungkin hanya ada satu orang yang tepat berumur 79 tahun yang tinggal di kode pos 85535. Bandingkan dengan kode pos 60629, yang merupakan bagian dari wilayah metropolitan Chicago dan menampung lebih dari 100.000 orang. Ada sekitar 1.000 orang yang berusia tepat 42 tahun di kode pos tersebut.

Baris pertama dalam set data kecil kami mudah diidentifikasi ulang, tetapi tidak untuk baris kedua. Namun, menurut anonimitas k, kedua baris tersebut mungkin benar-benar unik dalam set data yang lebih besar.

Peta k, seperti k-anonymity, mengharuskan Anda menentukan kolom database mana yang merupakan quasi-ID. API analisis risiko Perlindungan Data Sensitif menyimulasikan set data identifikasi ulang untuk memperkirakan langkah-langkah yang mungkin dilakukan penyerang untuk membandingkan set data asli guna mengidentifikasi ulang data. Untuk contoh sebelumnya, karena berkaitan dengan lokasi AS (kode pos) dan data pribadi (usia), dan karena kita mengasumsikan bahwa penyerang tidak tahu siapa yang berpartisipasi dalam survei, set data re-identifikasi dapat berupa semua orang yang tinggal di AS.

Setelah memiliki quasi-ID dan set data re-identifikasi, Anda dapat menghitung nilai peta k: Data Anda memenuhi peta k dengan nilai k jika setiap kombinasi nilai untuk quasi-ID muncul setidaknya k kali dalam set data re-identifikasi.

Dengan definisi ini, dan bahwa baris pertama dalam database kita kemungkinan hanya sesuai dengan satu orang di Amerika Serikat, set data contoh tidak memenuhi persyaratan nilai peta k sebesar 2 atau lebih. Untuk mendapatkan nilai peta k yang lebih besar, kita dapat menghapus nilai usia seperti yang telah kita lakukan di sini:

Kode pos (ZIP code) age
85535 **
60629 **

Seperti yang disebutkan sebelumnya, kode pos 85535 memiliki sekitar 20 orang dan 60629 memiliki lebih dari 100.000 orang. Oleh karena itu, kita dapat memperkirakan bahwa set data umum baru ini memiliki nilai peta k sekitar 20.

Resource peta k

Untuk informasi selengkapnya tentang peta k dan hubungannya dengan anonimitas k, lihat Melindungi Privasi Menggunakan Anonimitas k, oleh Khaled El Emam dan Fida Kamal Dankar, di Journal of the American Medical Informatics Association.

Untuk mempelajari cara menghitung estimasi peta k dengan Perlindungan Data Sensitif, lihat Menghitung peta k untuk set data.

Tentang kehadiran δ

Kehadiran delta (kehadiran δ) memperkirakan risiko yang terkait dengan penyerang yang ingin mengetahui apakah targetnya ada dalam set data. Hal ini sedikit berbeda dengan risiko identifikasi ulang karena tujuannya bukan untuk menemukan data yang tepat yang sesuai dengan individu mana, hanya untuk mengetahui apakah individu tersebut merupakan bagian dari set data. Penggunaan metrik ini sangat sesuai jika semua individu dalam set data memiliki atribut sensitif yang sama; misalnya, mereka semua memiliki diagnosis medis yang sama.

Seperti metrik risiko lainnya, kehadiran δ mengharuskan Anda menentukan kolom database mana yang merupakan quasi-ID. Dengan melakukan ini, Anda menyatakan data yang kemungkinan besar akan digunakan penyerang untuk mengetahui individu mana yang ada dalam set data. Seperti peta k, komputasi kehadiran δ memerlukan set data serangan: tabel yang lebih besar untuk membandingkan baris dalam set data asli.

Pertimbangkan contoh set data kecil berikut. Data sampel ini adalah bagian dari database hipotetis yang lebih besar tentang orang-orang dengan penyakit genetik tertentu.

Kode pos (ZIP code) age
85942 72
85942 72
62083 53

Di Amerika Serikat, kode pos 85942, ada sekitar 2 orang berusia 72 tahun, dan di kode pos 62083, ada sekitar 5 orang berusia 53 tahun. Dua data pertama tidak dapat diidentifikasi ulang secara persis karena keduanya memiliki quasi-ID yang sama. Namun, karena hanya dua individu yang memiliki quasi-ID ini dalam populasi yang lebih besar, penyerang dapat menyimpulkan bahwa keduanya menderita penyakit genetik. Kehadiran δ mengukur risiko khusus ini dengan menghitung rasio orang dengan quasi-ID tertentu yang ada dalam set data.

Kehadiran δ, seperti metrik risiko lainnya, mengharuskan Anda menentukan kolom database mana yang merupakan quasi-ID. Dan seperti untuk estimasi peta k, API analisis risiko Perlindungan Data Sensitif menyimulasikan set data populasi untuk memperkirakan set data yang mungkin digunakan penyerang untuk mencari tahu siapa yang ada dalam set data. Untuk contoh sebelumnya, karena data tersebut berkaitan dengan lokasi di Amerika Serikat (kode pos) dan data pribadi (usia), dan karena kita mengasumsikan bahwa penyerang tidak tahu siapa saja yang memiliki penyakit genetik, set data populasi ini dapat berupa semua orang yang tinggal di Amerika Serikat.

Setelah memiliki quasi-ID dan set data re-identifikasi, Anda dapat menghitung nilai kehadiran δ: data Anda memenuhi kehadiran δ dengan nilai δ jika setiap kombinasi nilai untuk quasi-ID muncul paling banyak δ * k kali dalam set data Anda, dengan k adalah jumlah total orang dengan nilai quasi-ID ini dalam set data populasi. Tidak seperti k dalam k-anonymity atau k-map, δ dalam δ-presence adalah bilangan riil antara 0 dan 1.

Dengan definisi ini, dan bahwa kedua orang berusia 72 tahun dengan kode pos 85942 dalam populasi umum juga ada dalam database kami, set data ini tidak memenuhi kehadiran δ untuk δ yang jauh lebih kecil dari 1. Untuk mendapatkan nilai kehadiran δ yang lebih rendah, kita dapat menghapus nilai usia dari dua baris pertama:

Kode pos (ZIP code) age
85942 **
85942 **
62083 53

Sekarang, karena 80 orang tinggal di kode pos 85942, nilai δ untuk dua data pertama adalah sekitar 2 / 80 = 2,5%; dan nilai δ untuk data ketiga adalah sekitar 1 / 5 = 20%. Oleh karena itu, kita dapat memperkirakan bahwa set data umum baru ini memiliki nilai kehadiran δ sekitar 20%.

Resource kehadiran δ

Untuk informasi selengkapnya tentang estimasi kehadiran δ berdasarkan data statistik, lihat δ-Presence Without Complete World Knowledge, oleh Mehmet Ercan Nergiz dan Chris Clifton dari Laporan Teknis Departemen Ilmu Komputer Purdue University.

Untuk mempelajari cara menghitung estimasi kehadiran δ dengan Perlindungan Data Sensitif, lihat Menghitung kehadiran δ untuk set data.