Kemungkinan kecocokan

Hasil pemindaian dikategorikan berdasarkan kemungkinannya untuk mewakili kecocokan. Perlindungan Data Sensitif menggunakan representasi kemungkinan yang dikelompokkan, yang dimaksudkan untuk menunjukkan kemungkinan suatu bagian data cocok dengan infoType tertentu.

Cara kerja kemungkinan

Saat mengonfigurasi pemindaian Perlindungan Data Sensitif, Anda menetapkan infoType yang ingin dipindai oleh Perlindungan Data Sensitif. Untuk mempersempit hasil pemindaian, Anda dapat menetapkan tingkat kemungkinan minimum dalam permintaan.

Untuk setiap potensi kecocokan (temuan) yang terdeteksi selama pemindaian, Perlindungan Data Sensitif menetapkan tingkat kemungkinan. Tingkat kemungkinan temuan menjelaskan seberapa besar kemungkinan temuan cocok dengan infoType yang Anda pindai. Misalnya, Perlindungan Data Sensitif mungkin menetapkan kemungkinan LIKELY ke temuan yang terlihat seperti alamat email.

Saat menampilkan hasil, Perlindungan Data Sensitif akan memfilter temuan yang memiliki kemungkinan lebih rendah daripada tingkat kemungkinan minimum yang Anda tetapkan dalam permintaan. Misalnya, jika menetapkan kemungkinan minimum ke POSSIBLE, Anda hanya akan mendapatkan temuan yang dievaluasi sebagai POSSIBLE, LIKELY, dan VERY_LIKELY. Jika menetapkan kemungkinan minimum ke VERY_LIKELY, Anda akan mendapatkan jumlah temuan terkecil.

Tingkat kemungkinan

Tabel berikut mencantumkan kemungkinan nilai kemungkinan yang dapat ditetapkan oleh Perlindungan Data Sensitif ke temuan.

ENUM Deskripsi
VERY_UNLIKELY Ditandai dengan hal berikut:
  • Sinyal lemah.
  • Tidak adanya petunjuk kontekstual.
  • Sinyal negatif untuk infoType tertentu.
UNLIKELY Ditandai dengan hal berikut:
  • Satu atau beberapa sinyal lemah.
  • Sinyal yang lebih kuat untuk infoType lain.
POSSIBLE Ditandai dengan hal berikut:
  • Satu atau beberapa sinyal terhadap infoType tertentu. Sinyal dapat mencakup checksum yang diteruskan.
  • Kurangnya petunjuk kontekstual yang kuat dan pemformatan spesifik yang unik.
LIKELY Ditandai dengan satu atau beberapa sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan unik dan spesifik.
VERY_LIKELY Ditandai dengan memiliki banyak sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan unik dan spesifik.

Memilih tingkat kemungkinan minimum untuk hasil pemindaian

Secara umum, jika Anda menetapkan tingkat kemungkinan minimum yang lebih tinggi dalam permintaan Perlindungan Data Sensitif, hasilnya akan memiliki lebih sedikit positif palsu (terkadang disebut derau). Namun, hasilnya juga dapat mengecualikan lebih banyak true positive. Memilih tingkat kemungkinan minimum melibatkan penemuan keseimbangan yang tepat antara recall dan presisi.

Misalnya, ada 10 alamat jalan dalam dokumen dan Sensitive Data Protection mengidentifikasi 5 alamat jalan. Namun, di antara temuan yang diidentifikasi oleh Perlindungan Data Sensitif, sebenarnya hanya ada 4 alamat jalan.

  • Perolehan adalah jumlah instance positif benar dari jumlah total instance yang relevan. Dalam contoh ini, recall-nya adalah 4/10.
  • Presisi adalah jumlah instance positif benar dari jumlah total instance yang diidentifikasi oleh Perlindungan Data Sensitif. Dalam contoh ini, presisinya adalah 4/5.

Dalam contoh ini, presisinya tinggi, tetapi recall-nya relatif rendah.

Tingkat kemungkinan minimum yang Anda tetapkan memengaruhi tingkat recall dan presisi yang Anda dapatkan dalam hasil pemindaian. Tabel berikut menjelaskan kapan setiap tingkat kemungkinan minimum berguna dan bagaimana recall dan presisi bervariasi di setiap tingkat.

Tingkat kemungkinan minimum Deskripsi
LIKELIHOOD_UNSPECIFIED Nilai default; sama dengan POSSIBLE.
VERY_UNLIKELY Berguna jika Anda memerlukan recall tertinggi. Tingkat kemungkinan minimum ini menghasilkan noise terbanyak.
UNLIKELY Berguna jika Anda memerlukan recall yang lebih tinggi. Tingkat kemungkinan minimum ini akan menghasilkan beberapa derau.
POSSIBLE Berguna jika Anda menginginkan keseimbangan presisi dan perolehan.
LIKELY Berguna jika Anda memerlukan presisi yang lebih tinggi dengan mengorbankan beberapa perolehan.
VERY_LIKELY Berguna jika Anda menginginkan presisi tertinggi dengan mengorban perolehan.

Kemungkinan minimum default

Jika Anda tidak menetapkan kemungkinan minimum dalam permintaan, atau jika Anda menetapkannya ke LIKELIHOOD_UNSPECIFIED, Perlindungan Data Sensitif hanya menampilkan temuan dengan kemungkinan POSSIBLE dan yang lebih tinggi.