Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. Sensitive Data Protection usa una representación de probabilidad separada en depósitos que se usa para indicar qué tan probable es que un dato coincida con un infoType determinado.
Cómo funciona la probabilidad
Cuando configuras un análisis de Protección de datos sensibles, estableces los infotipos que quieres que analice. Para acotar los resultados de la búsqueda, puedes establecer un nivel de probabilidad mínimo en tu solicitud.
Para cada coincidencia potencial (resultado) que se detecta durante el análisis, la Protección de datos sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que coincida con un infotipo que estás analizando. Por ejemplo, Sensitive Data Protection podría asignar una probabilidad de LIKELY
a un resultado que parece una dirección de correo electrónico.
Cuando Sensitive Data Protection muestra los resultados, filtra los hallazgos que tienen una probabilidad menor que el nivel mínimo que estableciste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE
, solo obtendrás los resultados que se evaluaron como POSSIBLE
, LIKELY
y VERY_LIKELY
. Si estableces la probabilidad mínima en VERY_LIKELY
,
obtendrás la menor cantidad de resultados.
Niveles de probabilidad
En la siguiente tabla, se enumeran los posibles valores de probabilidad que la Protección de datos sensibles puede asignar a un hallazgo.
ENUM | Descripción |
---|---|
VERY_UNLIKELY |
Se caracteriza por lo siguiente:
|
UNLIKELY |
Se caracteriza por lo siguiente:
|
POSSIBLE |
Se caracteriza por lo siguiente:
|
LIKELY |
Se caracterizan por uno o más indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de comprobación aprobadas, pistas contextuales sólidas y un formato único y específico. |
VERY_LIKELY |
Se caracterizan por tener muchos indicadores sólidos para un Infotipo determinado. Los indicadores pueden incluir sumas de comprobación aprobadas, pistas contextuales sólidas y un formato único y específico. |
Elige un nivel mínimo de probabilidad para los resultados del análisis
En general, cuando estableces un nivel de probabilidad mínima más alto en tu solicitud de Protección de datos sensibles, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel mínimo de probabilidad implica encontrar el equilibrio correcto entre la recuperación y la precisión.
Por ejemplo, supongamos que hay 10 direcciones en un documento y la Protección de datos sensibles identificó 5 direcciones. Sin embargo, entre los hallazgos que identificó Sensitive Data Protection, en realidad solo hay 4 direcciones.
- La recuperación es la cantidad de instancias de verdaderos positivos de la cantidad total de instancias relevantes. En este ejemplo, la recuperación es 4/10.
- La precisión es la cantidad de instancias de verdaderos positivos del total de instancias que identifica la Protección de datos sensibles. En este ejemplo, la precisión es 4/5.
En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.
El nivel de probabilidad mínimo que establezcas afectará el nivel de recuperación y precisión que obtengas en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínima y cómo varían la recuperación y la precisión en cada nivel.
Nivel de probabilidad mínimo | Descripción |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valor predeterminado; igual que POSSIBLE . |
VERY_UNLIKELY |
Es útil si necesitas la recuperación más alta. Este nivel mínimo de probabilidad genera la mayor cantidad de ruido. |
UNLIKELY |
Es útil si necesitas una recuperación más alta. Este nivel mínimo de probabilidad genera cierto ruido. |
POSSIBLE |
Es útil si deseas un equilibrio entre la precisión y la recuperación. |
LIKELY |
Es útil si necesitas una precisión más alta a costa de la recuperación. |
VERY_LIKELY |
Es útil si deseas obtener la mayor precisión a costa de la recuperación. |
Probabilidad mínima predeterminada
Si no estableces una probabilidad mínima en tu solicitud o si la estableces en
LIKELIHOOD_UNSPECIFIED
, la Protección de datos sensibles solo muestra los resultados con una
probabilidad de POSSIBLE
o superior.