Los resultados del análisis se clasifican en función de la probabilidad de que representen una coincidencia. Protección de Datos Sensibles usa una representación en contenedores de la probabilidad, que indica la probabilidad de que un fragmento de datos coincida con un infoType determinado.
Cómo funciona la probabilidad
Cuando configuras un análisis de Protección de Datos Sensibles, defines los infoTypes que quieres que busque Protección de Datos Sensibles. Para acotar los resultados del análisis, puedes definir un nivel de probabilidad mínimo en tu solicitud.
Por cada posible coincidencia (hallazgo) que se detecte durante el análisis, Protección de Datos Sensibles asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que el resultado coincida con un infoType que estés buscando. Por ejemplo, Protección de Datos Sensibles puede asignar una probabilidad de LIKELY
a un hallazgo que parezca una dirección de correo electrónico.
Cuando Protección de Datos Sensibles devuelve los resultados, filtra cualquier
detección que tenga una probabilidad inferior al nivel de probabilidad mínimo que
haya definido en su solicitud. Por ejemplo, si define la probabilidad mínima en POSSIBLE
, solo obtendrá los resultados que se hayan evaluado como POSSIBLE
, LIKELY
y VERY_LIKELY
. Si define la probabilidad mínima en VERY_LIKELY
, obtendrá el menor número de resultados.
Niveles de probabilidad
En la siguiente tabla se indican los valores de probabilidad que puede asignar Protección de Datos Sensibles a un resultado.
ENUM | Descripción |
---|---|
VERY_UNLIKELY |
Se caracteriza por lo siguiente:
|
UNLIKELY |
Se caracteriza por lo siguiente:
|
POSSIBLE |
Se caracteriza por lo siguiente:
|
LIKELY |
Se caracteriza por una o varias señales claras de un infoType concreto. Las señales pueden incluir sumas de comprobación, pistas contextuales sólidas y un formato único y específico. |
VERY_LIKELY |
Se caracteriza por tener muchas señales claras de un infoType determinado. Las señales pueden incluir sumas de comprobación, pistas contextuales sólidas y un formato único y específico. |
Elegir un nivel de probabilidad mínimo para los resultados del análisis
Por lo general, si define un nivel de probabilidad mínimo más alto en su solicitud de protección de datos sensibles, los resultados tendrán un número menor de falsos positivos (a veces denominados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre recuerdo y precisión.
Por ejemplo, supongamos que hay 10 direcciones postales en un documento y Protección de Datos Sensibles ha identificado 5. Sin embargo, de los resultados que ha identificado Protección de Datos Sensibles, solo hay 4 direcciones postales.
- La cobertura es el número de instancias positivas verdaderas del número total de instancias relevantes. En este ejemplo, la recuperación es de 4/10.
- La precisión es el número de instancias positivas verdaderas del total de instancias que identifica Protección de Datos Sensibles. En este ejemplo, la precisión es 4/5.
En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.
El nivel de probabilidad mínimo que definas afectará al nivel de recuerdo y precisión que obtengas en los resultados del análisis. En la siguiente tabla se describe cuándo es útil cada nivel de probabilidad mínima y cómo varían la recuperación y la precisión en cada nivel.
Nivel de probabilidad mínimo | Descripción |
---|---|
LIKELIHOOD_UNSPECIFIED |
Valor predeterminado, igual que POSSIBLE . |
VERY_UNLIKELY |
Es útil si necesitas la mayor capacidad de recuperación. Este nivel mínimo de probabilidad genera el mayor ruido. |
UNLIKELY |
Es útil si necesitas un mayor recuerdo de marca. Este nivel mínimo de probabilidad genera algo de ruido. |
POSSIBLE |
Útil si quieres un equilibrio entre la precisión y la recuperación. |
LIKELY |
Es útil si necesitas una mayor precisión a costa de perder algo de cobertura. |
VERY_LIKELY |
Es útil si quieres obtener la máxima precisión a costa de la cobertura. |
Probabilidad mínima predeterminada
Si no define una probabilidad mínima en su solicitud o si la define como LIKELIHOOD_UNSPECIFIED
, Protección de Datos Sensibles solo devolverá los resultados con una probabilidad de POSSIBLE
o superior.