Probabilità di corrispondenza

I risultati della scansione vengono classificati in base alla probabilità che rappresentino una corrispondenza. Sensitive Data Protection utilizza una rappresentazione in bucket della probabilità, che ha lo scopo di indicare la probabilità che un dato corrisponda a un determinato infoType.

Come funziona la probabilità

Quando configuri una scansione di Sensitive Data Protection, imposti gli infoType che vuoi che vengano cercati da Sensitive Data Protection. Per restringere i risultati della ricerca, puoi impostare un livello di probabilità minimo nella richiesta.

Per ogni potenziale corrispondenza (risultato) rilevata durante la scansione, Sensitive Data Protection assegna un livello di probabilità. Il livello di probabilità di un risultato descrive la probabilità che il risultato corrisponda a un infoType che stai cercando. Ad esempio, Sensitive Data Protection potrebbe assegnare una probabilità di LIKELY a un rilevamento che sembra un indirizzo email.

Quando Sensitive Data Protection restituisce i risultati, filtra tutti i risultati con una probabilità inferiore al livello di probabilità minima impostato nella richiesta. Ad esempio, se imposti la probabilità minima su POSSIBLE, vengono visualizzati solo i risultati valutati come POSSIBLE, LIKELY e VERY_LIKELY. Se imposti la probabilità minima su VERY_LIKELY, ottieni il numero più ridotto di risultati.

Livelli di probabilità

La tabella seguente elenca i possibili valori di probabilità che Sensitive Data Protection può assegnare a un rilevamento.

ENUM Descrizione
VERY_UNLIKELY Caratterizzato da quanto segue:
  • Un segnale debole.
  • Assenza di indizi contestuali.
  • Indicatori negativi per un determinato infoType.
UNLIKELY Caratterizzato da quanto segue:
  • Uno o più indicatori deboli.
  • Un segnale più forte per un altro infoType.
POSSIBLE Caratterizzato da quanto segue:
  • Uno o più indicatori relativi a un determinato infoType. Gli indicatori possono includere la verifica della checksum.
  • Mancanza di un indizio contestuale forte e formattazione unica e specifica.
LIKELY Caratterizzato da uno o più indicatori forti per un determinato infoType. Gli indicatori possono includere la verifica dei checksum, indizi di contesto forti e una formattazione unica e specifica.
VERY_LIKELY Caratterizzato da molti indicatori forti per un determinato infoType. Gli indicatori possono includere la verifica dei checksum, indizi di contesto forti e una formattazione unica e specifica.

Scegliere un livello di probabilità minimo per i risultati della ricerca

In genere, quando imposti un livello di probabilità minima più elevato nella richiesta di protezione dei dati sensibili, i risultati hanno un numero inferiore di falsi positivi (a volte chiamati rumore). Tuttavia, i risultati possono anche escludere più risultati positivi veri. La scelta di un livello di probabilità minimo comporta la ricerca del giusto equilibrio tra riconoscimento e precisione.

Ad esempio, supponiamo che in un documento siano presenti 10 indirizzi e che la funzionalità Protezione dei dati sensibili ne abbia identificati 5. Tuttavia, tra i risultati identificati da Sensitive Data Protection, ci sono solo 4 indirizzi.

  • Il richiamo è il numero di istanze di veri positivi rispetto al numero totale di istanze pertinenti. In questo esempio, il richiamo è pari a 4/10.
  • La precisione è il numero di istanze di veri positivi rispetto al numero totale di istanze identificate da Sensitive Data Protection. In questo esempio, la precisione è 4/5.

In questo esempio, la precisione è elevata, ma il richiamo è relativamente basso.

Il livello di probabilità minima impostato influisce sul livello di richiamo e precisione ottenuto nei risultati della scansione. La tabella seguente descrive quando è utile ciascun livello di probabilità minima e come variano il richiamo e la precisione a ciascun livello.

Livello di probabilità minimo Descrizione
LIKELIHOOD_UNSPECIFIED Valore predefinito; uguale a POSSIBLE.
VERY_UNLIKELY È utile se hai bisogno del massimo recupero. Questo livello di probabilità minimo genera il maggior numero di errori.
UNLIKELY Utile se hai bisogno di un ricordo del brand più elevato. Questo livello minimo di probabilità genera un po' di rumore.
POSSIBLE È utile se vuoi un equilibrio tra precisione e richiamo.
LIKELY È utile se hai bisogno di una maggiore precisione a spese di un certo richiamo.
VERY_LIKELY È utile se vuoi la massima precisione a spese del richiamo.

Probabilità minima predefinita

Se non imposti una probabilità minima nella richiesta o se la imposti su LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection restituisce solo i risultati con una probabilità pari o superiore a POSSIBLE.