Mengukur risiko identifikasi ulang dan pengungkapan

Analisis risiko identifikasi ulang, atau hanya analisis risiko, adalah proses menganalisis data sensitif untuk menemukan properti yang mungkin akan meningkatkan risiko subjek yang sedang diidentifikasi. Anda dapat menggunakan metode analisis risiko sebelum de-identifikasi untuk membantu menentukan strategi de-identifikasi yang efektif atau setelah de-identifikasi untuk memantau perubahan atau outlier.

Perlindungan Data Sensitif dapat menghitung empat metrik risiko identifikasi ulang: k-anonymity, l-diversity, k-map, dan δ-presence. Jika Anda tidak terbiasa dengan analisis risiko atau metrik ini, lihat topik konsep analisis risiko sebelum melanjutkan.

Bagian ini memberikan ringkasan tentang cara menggunakan Perlindungan Data Sensitif untuk analisis risiko data terstruktur menggunakan salah satu metrik ini, serta topik terkait lainnya.

Menghitung risiko identifikasi ulang

Perlindungan Data Sensitif dapat menganalisis data terstruktur Anda yang disimpan di tabel BigQuery dan menghitung metrik risiko identifikasi ulang berikut. Klik link untuk metrik yang ingin dihitung untuk mempelajari lebih lanjut.

Metrik Deskripsi
k-anonymity Properti set data yang menunjukkan pengidentifikasian ulang datanya. Set data bersifat k-anonim jika quasi-ID untuk setiap orang dalam set data identik dengan setidaknya k – 1 orang lain yang juga ada dalam set data.
l-diversity Perluasan dari k-anonymity yang juga mengukur keragaman nilai sensitif untuk setiap kolom tempat nilai tersebut muncul. Set data memiliki l-diversity jika, untuk setiap kumpulan baris dengan quasi-ID yang identik, terdapat setidaknya l nilai berbeda untuk setiap atribut sensitif.
k-map Menghitung risiko identifikasi ulang dengan membandingkan set data subjek yang dide-identifikasi tertentu dengan set data identifikasi ulang—atau "serangan"—yang lebih besar.
δ-kehadiran Memperkirakan probabilitas bahwa pengguna tertentu dalam populasi yang lebih besar ada dalam set data. Ini digunakan jika keanggotaan dalam set data itu sendiri merupakan informasi sensitif.

Menghitung statistik lainnya

Perlindungan Data Sensitif juga dapat menghitung statistik numerik dan kategoris untuk data yang disimpan dalam tabel BigQuery menggunakan resource DlpJob yang sama dengan API analisis risiko.

Metrik Deskripsi
Statistik numerik Menentukan nilai minimum, maksimum, dan kuantil untuk setiap kolom BigQuery.
Statistik numerik kategoris Menghitung statistik numerik kategoris untuk setiap bucket histogram dalam kolom BigQuery.

Untuk mengetahui informasi selengkapnya, lihat Menghitung statistik numerik dan kategoris.

Memvisualisasikan risiko identifikasi ulang

Anda dapat memvisualisasikan metrik risiko yang dihitung oleh Perlindungan Data Sensitif langsung di konsol Google Cloud menggunakan Perlindungan Data Sensitif (k-anonymity atau l-diversity), atau menggunakan produk Google Cloud lainnya.

Produk Deskripsi
Looker Studio Setelah menghitung nilai k-anonimitas untuk set data menggunakan Perlindungan Data Sensitif, Anda dapat memvisualisasikan hasilnya di Looker Studio. Dengan demikian, Anda juga dapat lebih memahami risiko identifikasi ulang dan membantu mengevaluasi kompromi dalam utilitas yang mungkin Anda buat jika Anda menyamarkan atau menghapus identitas data.