I risultati della scansione sono classificati in base alla probabilità che rappresentino una corrispondenza. Sensitive Data Protection utilizza una rappresentazione della probabilità in bucket, che ha lo scopo di indicare la probabilità che un dato corrisponda a un determinato infoType.
Come funziona la probabilità
Quando configuri un'analisi di Sensitive Data Protection, imposti gli infoType che vuoi che vengano utilizzati da Sensitive Data Protection. Per restringere i risultati dell'analisi, puoi impostare un livello di probabilità minimo nella richiesta.
Per ogni potenziale corrispondenza (ricerca) rilevata durante l'analisi, Sensitive Data Protection assegna un livello di probabilità. Il livello di probabilità di un risultato descrive la probabilità che il risultato corrisponda a un infoType che stai cercando. Ad esempio, Sensitive Data Protection potrebbe assegnare
una probabilità di LIKELY
a un risultato che sembra un indirizzo email.
Quando Sensitive Data Protection restituisce i risultati, filtra tutti i risultati con una probabilità inferiore rispetto al livello di probabilità minimo impostato nella richiesta. Ad esempio, se imposti la probabilità minima su POSSIBLE
, riceverai solo i risultati valutati come POSSIBLE
, LIKELY
e VERY_LIKELY
. Se imposti la probabilità minima su VERY_LIKELY
,
ottieni il numero minimo di risultati.
Livelli di probabilità
La tabella seguente elenca i possibili valori di probabilità che la protezione dei dati sensibili possa assegnare a un risultato.
ENUM | Descrizione |
---|---|
VERY_UNLIKELY |
Caratterizzato da quanto segue:
|
UNLIKELY |
Caratterizzato da quanto segue:
|
POSSIBLE |
Caratterizzato da quanto segue:
|
LIKELY |
Caratterizzato da uno o più indicatori forti per un determinato infoType. Gli indicatori possono includere checksum di passaggio, indizi contestuali solidi e formattazione specifica e univoca. |
VERY_LIKELY |
Sono caratterizzate dalla presenza di molti indicatori forti per un determinato infoType. Gli indicatori possono includere checksum di passaggio, indizi contestuali solidi e formattazione specifica e univoca. |
Scelta di un livello di probabilità minimo per i risultati della scansione
In generale, quando imposti un livello di probabilità minimo più elevato nella richiesta di Sensitive Data Protection, i risultati hanno un numero inferiore di falsi positivi (a volte chiamato rumore). Tuttavia, i risultati possono anche escludere più veri positivi. La scelta di un livello di probabilità minimo implica trovare il giusto equilibrio tra richiamo e precisione.
Ad esempio, supponiamo che in un documento ci siano 10 vie e che la protezione dei dati sensibili abbia identificato 5 vie. Tuttavia, tra i risultati rilevati da Sensitive Data Protection, in realtà ci sono solo 4 indirizzi.
- Richiamo è il numero di istanze true positive rispetto al numero totale di istanze pertinenti. In questo esempio, il richiamo è 4/10.
- La precisione indica il numero di istanze veri positive sul numero totale di istanze identificate da Sensitive Data Protection. In questo esempio, la precisione è 4/5.
In questo esempio, la precisione è alta, ma il richiamo è relativamente basso.
Il livello di probabilità minimo che imposti influisce sul livello di richiamo e precisione che ottieni nei risultati della scansione. La tabella seguente descrive quando ogni livello minimo di probabilità è utile e in che modo richiamo e precisione variano a ogni livello.
Livello di probabilità minimo | Descrizione |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valore predefinito; uguale a POSSIBLE . |
VERY_UNLIKELY |
Utile se hai bisogno del massimo richiamo. Questo livello di probabilità minimo genera la maggior parte del rumore. |
UNLIKELY |
Utile se hai bisogno di un maggiore richiamo. Questo livello minimo di probabilità genera rumore. |
POSSIBLE |
Utile se vuoi trovare un equilibrio tra precisione e richiamo. |
LIKELY |
Utile se hai bisogno di una precisione maggiore a scapito di un certo richiamo. |
VERY_LIKELY |
Utile se vuoi ottenere la massima precisione per le spese del richiamo. |
Probabilità minima predefinita
Se non imposti la probabilità minima nella richiesta o se la imposti su LIKELIHOOD_UNSPECIFIED
, Sensitive Data Protection restituisce solo i risultati con una probabilità pari o superiore a POSSIBLE
.