Hasil pemindaian dikategorikan berdasarkan kemungkinannya untuk mewakili kecocokan. Perlindungan Data Sensitif menggunakan representasi kemungkinan yang dikelompokkan, yang dimaksudkan untuk menunjukkan kemungkinan suatu bagian data cocok dengan infoType tertentu.
Cara kerja kemungkinan
Saat mengonfigurasi pemindaian Perlindungan Data Sensitif, Anda menetapkan infoType yang ingin dipindai oleh Perlindungan Data Sensitif. Untuk mempersempit hasil pemindaian, Anda dapat menetapkan tingkat kemungkinan minimum dalam permintaan.
Untuk setiap potensi kecocokan (temuan) yang terdeteksi selama pemindaian,
Perlindungan Data Sensitif menetapkan tingkat kemungkinan. Tingkat kemungkinan
temuan menjelaskan seberapa besar kemungkinan temuan cocok dengan infoType yang
Anda pindai. Misalnya, Perlindungan Data Sensitif mungkin menetapkan kemungkinan LIKELY
ke temuan yang terlihat seperti alamat email.
Saat menampilkan hasil, Perlindungan Data Sensitif akan memfilter
temuan yang memiliki kemungkinan lebih rendah daripada tingkat kemungkinan minimum yang Anda
tetapkan dalam permintaan. Misalnya, jika menetapkan kemungkinan minimum ke
POSSIBLE
, Anda hanya akan mendapatkan temuan yang dievaluasi sebagai POSSIBLE
,
LIKELY
, dan VERY_LIKELY
. Jika menetapkan kemungkinan minimum ke VERY_LIKELY
,
Anda akan mendapatkan jumlah temuan terkecil.
Tingkat kemungkinan
Tabel berikut mencantumkan kemungkinan nilai kemungkinan yang dapat ditetapkan oleh Perlindungan Data Sensitif ke temuan.
ENUM | Deskripsi |
---|---|
VERY_UNLIKELY |
Ditandai dengan hal berikut:
|
UNLIKELY |
Ditandai dengan hal berikut:
|
POSSIBLE |
Ditandai dengan hal berikut:
|
LIKELY |
Ditandai dengan satu atau beberapa sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan unik dan spesifik. |
VERY_LIKELY |
Ditandai dengan memiliki banyak sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan unik dan spesifik. |
Memilih tingkat kemungkinan minimum untuk hasil pemindaian
Secara umum, jika Anda menetapkan tingkat kemungkinan minimum yang lebih tinggi dalam permintaan Perlindungan Data Sensitif, hasilnya akan memiliki lebih sedikit positif palsu (terkadang disebut derau). Namun, hasilnya juga dapat mengecualikan lebih banyak true positive. Memilih tingkat kemungkinan minimum melibatkan penemuan keseimbangan yang tepat antara recall dan presisi.
Misalnya, ada 10 alamat jalan dalam dokumen dan Sensitive Data Protection mengidentifikasi 5 alamat jalan. Namun, di antara temuan yang diidentifikasi oleh Perlindungan Data Sensitif, sebenarnya hanya ada 4 alamat jalan.
- Perolehan adalah jumlah instance positif benar dari jumlah total instance yang relevan. Dalam contoh ini, recall-nya adalah 4/10.
- Presisi adalah jumlah instance positif benar dari jumlah total instance yang diidentifikasi oleh Perlindungan Data Sensitif. Dalam contoh ini, presisinya adalah 4/5.
Dalam contoh ini, presisinya tinggi, tetapi recall-nya relatif rendah.
Tingkat kemungkinan minimum yang Anda tetapkan memengaruhi tingkat recall dan presisi yang Anda dapatkan dalam hasil pemindaian. Tabel berikut menjelaskan kapan setiap tingkat kemungkinan minimum berguna dan bagaimana recall dan presisi bervariasi di setiap tingkat.
Tingkat kemungkinan minimum | Deskripsi |
---|---|
LIKELIHOOD_UNSPECIFIED |
Nilai default; sama dengan POSSIBLE . |
VERY_UNLIKELY |
Berguna jika Anda memerlukan recall tertinggi. Tingkat kemungkinan minimum ini menghasilkan noise terbanyak. |
UNLIKELY |
Berguna jika Anda memerlukan recall yang lebih tinggi. Tingkat kemungkinan minimum ini akan menghasilkan beberapa derau. |
POSSIBLE |
Berguna jika Anda menginginkan keseimbangan presisi dan perolehan. |
LIKELY |
Berguna jika Anda memerlukan presisi yang lebih tinggi dengan mengorbankan beberapa perolehan. |
VERY_LIKELY |
Berguna jika Anda menginginkan presisi tertinggi dengan mengorban perolehan. |
Kemungkinan minimum default
Jika Anda tidak menetapkan kemungkinan minimum dalam permintaan, atau jika Anda menetapkannya ke
LIKELIHOOD_UNSPECIFIED
, Perlindungan Data Sensitif hanya menampilkan temuan dengan
kemungkinan POSSIBLE
dan yang lebih tinggi.