Mengukur risiko identifikasi ulang dan pengungkapan

Analisis risiko identifikasi ulang, atau hanya analisis risiko, adalah proses menganalisis data sensitif untuk menemukan properti yang dapat meningkatkan risiko identifikasi subjek. Anda dapat menggunakan metode analisis risiko sebelum de-identifikasi untuk membantu menentukan strategi de-identifikasi yang efektif atau setelah de-identifikasi untuk memantau setiap perubahan atau pencilan.

Perlindungan Data Sensitif dapat menghitung empat metrik risiko identifikasi ulang: k-anonymity, l- variation, k-map, dan des-presence. Jika Anda belum terbiasa dengan analisis risiko atau metrik ini, baca topik konsep analisis risiko sebelum melanjutkan.

Bagian ini memberikan ringkasan tentang cara menggunakan Perlindungan Data Sensitif untuk analisis risiko data terstruktur menggunakan salah satu metrik ini, ditambah topik terkait lainnya.

Menghitung risiko identifikasi ulang

Perlindungan Data Sensitif dapat menganalisis data terstruktur Anda yang disimpan dalam tabel BigQuery dan menghitung metrik risiko identifikasi ulang berikut. Klik link metrik yang ingin Anda hitung untuk mempelajari lebih lanjut.

Metrik Deskripsi
k-anonymity Properti {i>dataset<i} yang menunjukkan identifikasi ulang catatannya. Set data bersifat k-anonim jika ID semu untuk setiap orang dalam set data identik dengan setidaknya k – 1 orang lain juga dalam set data tersebut.
l-keberagaman Perluasan k-anonymity yang juga mengukur keberagaman nilai sensitif untuk setiap kolom tempat nilai tersebut muncul. Set data memiliki l-ragam jika, untuk setiap set baris dengan quasi-ID yang identik, setidaknya ada l nilai yang berbeda untuk setiap atribut sensitif.
k-map Menghitung risiko identifikasi ulang dengan membandingkan set data subjek yang telah dide-identifikasi dengan set data identifikasi ulang—atau "serangan" yang lebih besar.
Kehadiran bahwa Memperkirakan probabilitas bahwa pengguna tertentu dalam populasi yang lebih besar ada dalam set data. Ini digunakan ketika keanggotaan dalam {i>dataset<i} itu sendiri merupakan informasi sensitif.

Menghitung statistik lainnya

Perlindungan Data Sensitif juga dapat menghitung statistik numerik dan kategoris untuk data yang disimpan dalam tabel BigQuery menggunakan resource DlpJob yang sama seperti API analisis risiko.

Metrik Deskripsi
Statistik numerik Menentukan nilai minimum, maksimum, dan kuantil untuk setiap kolom BigQuery.
Statistik numerik kategoris Menghitung statistik numerik kategoris untuk setiap bucket histogram dalam kolom BigQuery.

Untuk informasi selengkapnya, lihat Menghitung statistik numerik dan kategoris.

Memvisualisasikan risiko identifikasi ulang

Anda dapat memvisualisasikan metrik risiko yang dihitung oleh Perlindungan Data Sensitif langsung di Konsol Google Cloud menggunakan Perlindungan Data Sensitif (k-anonymity atau l-beragam), atau menggunakan produk Google Cloud lainnya.

Produk Deskripsi
Looker Studio Setelah menghitung nilai k-anonymity untuk set data menggunakan Perlindungan Data Sensitif, Anda dapat memvisualisasikan hasilnya di Looker Studio. Dengan melakukan hal itu, Anda juga akan dapat lebih memahami risiko identifikasi ulang dan membantu mengevaluasi kompromi dalam utilitas yang mungkin Anda buat jika Anda menyamarkan atau melakukan de-identifikasi data.