Probabilità di corrispondenza

I risultati della scansione sono classificati in base alla probabilità che rappresentino una corrispondenza. Sensitive Data Protection utilizza una rappresentazione della probabilità in bucket, che ha lo scopo di indicare la probabilità che un dato corrisponda a un determinato infoType.

Come funziona la probabilità

Quando configuri un'analisi di Sensitive Data Protection, imposti gli infoType che vuoi che vengano utilizzati da Sensitive Data Protection. Per restringere i risultati dell'analisi, puoi impostare un livello di probabilità minimo nella richiesta.

Per ogni potenziale corrispondenza (ricerca) rilevata durante l'analisi, Sensitive Data Protection assegna un livello di probabilità. Il livello di probabilità di un risultato descrive la probabilità che il risultato corrisponda a un infoType che stai cercando. Ad esempio, Sensitive Data Protection potrebbe assegnare una probabilità di LIKELY a un risultato che sembra un indirizzo email.

Quando Sensitive Data Protection restituisce i risultati, filtra tutti i risultati con una probabilità inferiore rispetto al livello di probabilità minimo impostato nella richiesta. Ad esempio, se imposti la probabilità minima su POSSIBLE, riceverai solo i risultati valutati come POSSIBLE, LIKELY e VERY_LIKELY. Se imposti la probabilità minima su VERY_LIKELY, ottieni il numero minimo di risultati.

Livelli di probabilità

La tabella seguente elenca i possibili valori di probabilità che la protezione dei dati sensibili possa assegnare a un risultato.

ENUM Descrizione
VERY_UNLIKELY Caratterizzato da quanto segue:
  • Un segnale debole.
  • Assenza di indizi contestuali.
  • Indicatori negativi per un infoType specifico.
UNLIKELY Caratterizzato da quanto segue:
  • Uno o più indicatori deboli.
  • Un indicatore più forte per un altro infoType.
POSSIBLE Caratterizzato da quanto segue:
  • Uno o più indicatori relativi a un infoType specifico. Gli indicatori possono includere il superamento di checksum.
  • Mancanza di un indizio contestuale efficace e di una formattazione unica e specifica.
LIKELY Caratterizzato da uno o più indicatori forti per un determinato infoType. Gli indicatori possono includere checksum di passaggio, indizi contestuali solidi e formattazione specifica e univoca.
VERY_LIKELY Sono caratterizzate dalla presenza di molti indicatori forti per un determinato infoType. Gli indicatori possono includere checksum di passaggio, indizi contestuali solidi e formattazione specifica e univoca.

Scelta di un livello di probabilità minimo per i risultati della scansione

In generale, quando imposti un livello di probabilità minimo più elevato nella richiesta di Sensitive Data Protection, i risultati hanno un numero inferiore di falsi positivi (a volte chiamato rumore). Tuttavia, i risultati possono anche escludere più veri positivi. La scelta di un livello di probabilità minimo implica trovare il giusto equilibrio tra richiamo e precisione.

Ad esempio, supponiamo che in un documento ci siano 10 vie e che la protezione dei dati sensibili abbia identificato 5 vie. Tuttavia, tra i risultati rilevati da Sensitive Data Protection, in realtà ci sono solo 4 indirizzi.

  • Richiamo è il numero di istanze true positive rispetto al numero totale di istanze pertinenti. In questo esempio, il richiamo è 4/10.
  • La precisione indica il numero di istanze veri positive sul numero totale di istanze identificate da Sensitive Data Protection. In questo esempio, la precisione è 4/5.

In questo esempio, la precisione è alta, ma il richiamo è relativamente basso.

Il livello di probabilità minimo che imposti influisce sul livello di richiamo e precisione che ottieni nei risultati della scansione. La tabella seguente descrive quando ogni livello minimo di probabilità è utile e in che modo richiamo e precisione variano a ogni livello.

Livello di probabilità minimo Descrizione
LIKELIHOOD_UNSPECIFIED Valore predefinito; uguale a POSSIBLE.
VERY_UNLIKELY Utile se hai bisogno del massimo richiamo. Questo livello di probabilità minimo genera la maggior parte del rumore.
UNLIKELY Utile se hai bisogno di un maggiore richiamo. Questo livello minimo di probabilità genera rumore.
POSSIBLE Utile se vuoi trovare un equilibrio tra precisione e richiamo.
LIKELY Utile se hai bisogno di una precisione maggiore a scapito di un certo richiamo.
VERY_LIKELY Utile se vuoi ottenere la massima precisione per le spese del richiamo.

Probabilità minima predefinita

Se non imposti la probabilità minima nella richiesta o se la imposti su LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection restituisce solo i risultati con una probabilità pari o superiore a POSSIBLE.