Probabilidad de coincidencia

Los resultados del análisis se clasifican en función de la probabilidad de que representen una coincidencia. Protección de Datos Sensibles usa una representación en contenedores de la probabilidad, que indica la probabilidad de que un fragmento de datos coincida con un infoType determinado.

Cómo funciona la probabilidad

Cuando configuras un análisis de Protección de Datos Sensibles, defines los infoTypes que quieres que busque Protección de Datos Sensibles. Para acotar los resultados del análisis, puedes definir un nivel de probabilidad mínimo en tu solicitud.

Por cada posible coincidencia (hallazgo) que se detecte durante el análisis, Protección de Datos Sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que el resultado coincida con un infoType que estés buscando. Por ejemplo, Protección de Datos Sensibles puede asignar una probabilidad de LIKELY a un hallazgo que parezca una dirección de correo electrónico.

Cuando Protección de Datos Sensibles devuelve los resultados, filtra cualquier detección que tenga una probabilidad inferior al nivel de probabilidad mínimo que haya definido en su solicitud. Por ejemplo, si define la probabilidad mínima en POSSIBLE, solo obtendrá los resultados que se hayan evaluado como POSSIBLE, LIKELY y VERY_LIKELY. Si define la probabilidad mínima en VERY_LIKELY, obtendrá el menor número de resultados.

Niveles de probabilidad

En la siguiente tabla se indican los valores de probabilidad que puede asignar Protección de Datos Sensibles a un resultado.

ENUM Descripción
VERY_UNLIKELY Se caracteriza por lo siguiente:
  • Una señal débil.
  • Ausencia de pistas contextuales.
  • Señales negativas de un infoType concreto.
UNLIKELY Se caracteriza por lo siguiente:
  • Una o varias señales débiles.
  • Una señal más fuerte para otro infoType.
POSSIBLE Se caracteriza por lo siguiente:
  • Una o varias señales hacia un infoType determinado. Las señales pueden incluir sumas de comprobación aprobadas.
  • Falta de una pista contextual clara y de un formato único y específico.
LIKELY Se caracteriza por una o varias señales claras de un infoType concreto. Las señales pueden incluir sumas de comprobación, pistas contextuales sólidas y un formato único y específico.
VERY_LIKELY Se caracteriza por tener muchas señales claras de un infoType determinado. Las señales pueden incluir sumas de comprobación, pistas contextuales sólidas y un formato único y específico.

Elegir un nivel de probabilidad mínimo para los resultados del análisis

Por lo general, si define un nivel de probabilidad mínimo más alto en su solicitud de protección de datos sensibles, los resultados tendrán un número menor de falsos positivos (a veces denominados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre recuerdo y precisión.

Por ejemplo, supongamos que hay 10 direcciones postales en un documento y Protección de Datos Sensibles ha identificado 5. Sin embargo, de los resultados que ha identificado Protección de Datos Sensibles, solo hay 4 direcciones postales.

  • La cobertura es el número de instancias positivas verdaderas del número total de instancias relevantes. En este ejemplo, la recuperación es de 4/10.
  • La precisión es el número de instancias positivas verdaderas del total de instancias que identifica Protección de Datos Sensibles. En este ejemplo, la precisión es 4/5.

En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.

El nivel de probabilidad mínimo que definas afectará al nivel de recuerdo y precisión que obtengas en los resultados del análisis. En la siguiente tabla se describe cuándo es útil cada nivel de probabilidad mínima y cómo varían la recuperación y la precisión en cada nivel.

Nivel de probabilidad mínimo Descripción
LIKELIHOOD_UNSPECIFIED Valor predeterminado, igual que POSSIBLE.
VERY_UNLIKELY Es útil si necesitas la mayor capacidad de recuperación. Este nivel mínimo de probabilidad genera el mayor ruido.
UNLIKELY Es útil si necesitas un mayor recuerdo de marca. Este nivel mínimo de probabilidad genera algo de ruido.
POSSIBLE Útil si quieres un equilibrio entre la precisión y la recuperación.
LIKELY Es útil si necesitas una mayor precisión a costa de perder algo de cobertura.
VERY_LIKELY Es útil si quieres obtener la máxima precisión a costa de la cobertura.

Probabilidad mínima predeterminada

Si no define una probabilidad mínima en su solicitud o si la define como LIKELIHOOD_UNSPECIFIED, Protección de Datos Sensibles solo devolverá los resultados con una probabilidad de POSSIBLE o superior.