Probabilidad de coincidencia

Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. La protección de datos sensibles usa una representación de probabilidad agrupada en buckets, que tiene como objetivo indicar la probabilidad de que un dato coincida con un infoType determinado.

Cómo funciona la probabilidad

Cuando configuras un análisis de protección de datos sensibles, debes establecer los Infotipos que deseas que busque la protección de datos sensibles. Para limitar los resultados del análisis, puedes establecer un nivel de probabilidad mínimo en tu solicitud.

Para cada coincidencia potencial (resultado) que se detecta durante el análisis, la protección de datos sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que coincida con un Infotipo que estás buscando. Por ejemplo, la Protección de datos sensibles podría asignar una probabilidad de LIKELY a un resultado que parece una dirección de correo electrónico.

Cuando la Protección de datos sensibles muestra los resultados, filtra cualquier resultado que tenga una probabilidad más baja que el nivel de probabilidad mínimo que configuraste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE, solo obtendrás los resultados que se evaluaron como POSSIBLE, LIKELY y VERY_LIKELY. Si estableces la probabilidad mínima en VERY_LIKELY, obtienes la menor cantidad de resultados.

Niveles de probabilidad

En la siguiente tabla, se enumeran los posibles valores de probabilidad que la protección de datos sensibles puede asignar a un resultado.

ENUM Descripción
VERY_UNLIKELY Se caracteriza por lo siguiente:
  • La señal es débil.
  • Ausencia de pistas contextuales.
  • Indicadores negativos para un Infotipo determinado.
UNLIKELY Se caracteriza por lo siguiente:
  • Uno o más indicadores débiles.
  • Una señal más fuerte para otro Infotipo.
POSSIBLE Se caracteriza por lo siguiente:
  • Uno o más indicadores de un Infotipo determinado. Las señales pueden incluir pasar sumas de verificación.
  • Falta de una pista contextual sólida y de formato único y específico.
LIKELY Se caracteriza por uno o más indicadores fuertes para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.
VERY_LIKELY Se caracteriza por tener muchos indicadores fuertes para un Infotipo determinado. Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.

Elige un nivel de probabilidad mínimo para los resultados del análisis

En general, cuando estableces un nivel de probabilidad mínimo más alto en tu solicitud de protección de datos sensibles, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. La elección de un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre recuperación y precisión.

Por ejemplo, supongamos que hay 10 direcciones en un documento y que la Protección de Datos Sensibles identificó 5 direcciones. Sin embargo, entre los hallazgos que identificó la protección de datos sensibles, en realidad solo hay 4 direcciones.

  • La recuperación es la cantidad de instancias verdaderos positivos sobre la cantidad total de instancias relevantes. En este ejemplo, la recuperación es 4/10.
  • La precisión es la cantidad de instancias verdaderos positivos respecto de la cantidad total de instancias que identifica la protección de datos sensibles. En este ejemplo, la precisión es 4/5.

En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.

El nivel de probabilidad mínimo que estableces afecta el nivel de recuperación y precisión que obtienes en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínimo y cómo varían la recuperación y la precisión en cada nivel.

Nivel de probabilidad mínimo Descripción
LIKELIHOOD_UNSPECIFIED Valor predeterminado; igual que POSSIBLE.
VERY_UNLIKELY Es útil si necesitas una mayor recuperación. Este nivel de probabilidad mínimo genera la mayor cantidad de ruido.
UNLIKELY Es útil si necesitas una mayor recuperación. Este nivel de probabilidad mínimo genera un poco de ruido.
POSSIBLE Es útil si deseas un equilibrio entre precisión y recuperación.
LIKELY Es útil si necesitas una precisión mayor a expensas de cierta recuperación.
VERY_LIKELY Es útil si deseas la mayor precisión a expensas de la recuperación.

Probabilidad mínima predeterminada

Si no estableces una probabilidad mínima en tu solicitud o si la estableces en LIKELIHOOD_UNSPECIFIED, la protección de datos sensibles solo mostrará los resultados con una probabilidad de POSSIBLE o superior.