El análisis de riesgo de reidentificación, o simplemente análisis de riesgos, es el proceso de analizar datos sensibles para encontrar propiedades que puedan aumentar el riesgo de que se identifiquen sujetos. Puede usar métodos de análisis de riesgos antes de la desidentificación para determinar una estrategia eficaz o después de la desidentificación para monitorizar cualquier cambio o valor atípico.
Protección de Datos Sensibles puede calcular cuatro métricas de riesgo de reidentificación: k-anonimidad, l-diversidad, k-map y δ-presencia. Si no conoces el análisis de riesgos o estas métricas, consulta el artículo sobre el concepto de análisis de riesgos antes de continuar.
En esta sección se ofrece una descripción general de cómo usar Protección de Datos Sensibles para analizar los riesgos de los datos estructurados con cualquiera de estas métricas, así como otros temas relacionados.
Calcular el riesgo de reidentificación
Protección de Datos Sensibles puede analizar los datos estructurados almacenados en tablas de BigQuery y calcular las siguientes métricas de riesgo de reidentificación. Haz clic en el enlace de la métrica que quieras calcular para obtener más información.
Métrica | Descripción |
---|---|
k-anonimato | Una propiedad de un conjunto de datos que indica la posibilidad de reidentificar sus registros. Se consideran k-anónimos los conjuntos de datos en los que los cuasidentificadores de cada persona son idénticos a por lo menos otras k – 1 personas. |
l-diversidad | Una extensión de la propiedad k-anonymity que mide la diversidad de los valores sensibles en cada columna en la que aparecen. Un conjunto de datos tiene la propiedad l-diversity cuando, para cada conjunto de filas con cuasidentificadores idénticos, hay por lo menos l valores distintos para cada atributo sensible. |
k-map | Calcula el riesgo de reidentificación comparando un conjunto de datos desidentificados de sujetos con un conjunto de datos de reidentificación (o de "ataque") más grande. |
δ-presence | Estima la probabilidad de que un usuario determinado de una población más grande esté presente en el conjunto de datos. Se usa cuando la pertenencia al conjunto de datos es información sensible. |
Calcular otras estadísticas
Protección de Datos Sensibles también puede calcular estadísticas numéricas y categóricas de los datos almacenados en tablas de BigQuery usando el mismo recurso DlpJob
que las APIs de análisis de riesgos.
Métrica | Descripción |
---|---|
Estadísticas numéricas | Determina los valores mínimo, máximo y de cuantiles de una columna de BigQuery. |
Estadísticas numéricas categóricas | Calcula estadísticas numéricas categóricas de los contenedores de histogramas individuales de una columna de BigQuery. |
Para obtener más información, consulta Calcular estadísticas numéricas y categóricas.
Visualizar el riesgo de reidentificación
Puede visualizar las métricas de riesgo que calcula Protección de Datos Sensibles directamente en la Google Cloud consola con Protección de Datos Sensibles (k-anonimato o l-diversidad) o con otros productos deGoogle Cloud .
Producto | Descripción |
---|---|
Looker Studio | Después de calcular los valores de k-anonimato de un conjunto de datos con Protección de Datos Sensibles, puede visualizar los resultados en Looker Studio. De esta forma, también podrá comprender mejor el riesgo de reidentificación y evaluar las ventajas y desventajas de la utilidad que podría obtener si anonimiza o seudonimiza los datos. |