Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. La protección de datos sensibles usa una representación de probabilidad agrupada en buckets, que tiene como objetivo indicar la probabilidad de que un dato coincida con un infoType determinado.
Cómo funciona la probabilidad
Cuando configuras un análisis de protección de datos sensibles, debes establecer los Infotipos que deseas que busque la protección de datos sensibles. Para limitar los resultados del análisis, puedes establecer un nivel de probabilidad mínimo en tu solicitud.
Para cada coincidencia potencial (resultado) que se detecta durante el análisis, la protección de datos sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que coincida con un Infotipo que estás buscando. Por ejemplo, la Protección de datos sensibles podría asignar una probabilidad de LIKELY
a un resultado que parece una dirección de correo electrónico.
Cuando la Protección de datos sensibles muestra los resultados, filtra cualquier
resultado que tenga una probabilidad más baja que el nivel de probabilidad mínimo que
configuraste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE
, solo obtendrás los resultados que se evaluaron como POSSIBLE
, LIKELY
y VERY_LIKELY
. Si estableces la probabilidad mínima en VERY_LIKELY
,
obtienes la menor cantidad de resultados.
Niveles de probabilidad
En la siguiente tabla, se enumeran los posibles valores de probabilidad que la protección de datos sensibles puede asignar a un resultado.
ENUM | Descripción |
---|---|
VERY_UNLIKELY |
Se caracteriza por lo siguiente:
|
UNLIKELY |
Se caracteriza por lo siguiente:
|
POSSIBLE |
Se caracteriza por lo siguiente:
|
LIKELY |
Se caracteriza por uno o más indicadores fuertes para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico. |
VERY_LIKELY |
Se caracteriza por tener muchos indicadores fuertes para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico. |
Elige un nivel de probabilidad mínimo para los resultados del análisis
En general, cuando estableces un nivel de probabilidad mínimo más alto en tu solicitud de protección de datos sensibles, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. La elección de un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre recuperación y precisión.
Por ejemplo, supongamos que hay 10 direcciones en un documento y que la Protección de Datos Sensibles identificó 5 direcciones. Sin embargo, entre los hallazgos que identificó la protección de datos sensibles, en realidad solo hay 4 direcciones.
- La recuperación es la cantidad de instancias verdaderos positivos sobre la cantidad total de instancias relevantes. En este ejemplo, la recuperación es 4/10.
- La precisión es la cantidad de instancias verdaderos positivos respecto de la cantidad total de instancias que identifica la protección de datos sensibles. En este ejemplo, la precisión es 4/5.
En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.
El nivel de probabilidad mínimo que estableces afecta el nivel de recuperación y precisión que obtienes en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínimo y cómo varían la recuperación y la precisión en cada nivel.
Nivel de probabilidad mínimo | Descripción |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valor predeterminado; igual que POSSIBLE . |
VERY_UNLIKELY |
Es útil si necesitas una mayor recuperación. Este nivel de probabilidad mínimo genera la mayor cantidad de ruido. |
UNLIKELY |
Es útil si necesitas una mayor recuperación. Este nivel de probabilidad mínimo genera un poco de ruido. |
POSSIBLE |
Es útil si deseas un equilibrio entre precisión y recuperación. |
LIKELY |
Es útil si necesitas una precisión mayor a expensas de cierta recuperación. |
VERY_LIKELY |
Es útil si deseas la mayor precisión a expensas de la recuperación. |
Probabilidad mínima predeterminada
Si no estableces una probabilidad mínima en tu solicitud o si la estableces en
LIKELIHOOD_UNSPECIFIED
, la protección de datos sensibles solo mostrará los resultados con
una probabilidad de POSSIBLE
o superior.