El análisis de riesgos de reidentificación (o simplemente análisis de riesgos) es el proceso de analizar datos sensibles para encontrar propiedades que puedan aumentar el riesgo de que se identifiquen sujetos o de que se revele información sensible sobre personas. Puede usar métodos de análisis de riesgos antes de la desidentificación para determinar una estrategia de desidentificación eficaz o después de la desidentificación para monitorizar cualquier cambio o valor atípico.
La desidentificación es el proceso mediante el cual se elimina la información de identificación de los datos. Protección de Datos Sensibles puede detectar y anonimizar datos sensibles por ti según la configuración que hayas definido para que se ajuste a los requisitos de tu organización.
Por el contrario, la reidentificación es el proceso de emparejar datos desidentificados con otros datos disponibles para determinar a qué persona pertenecen los datos. La reidentificación se menciona con mayor frecuencia en el contexto de la información personal sensible, como los datos médicos o financieros.
Para obtener más información sobre cómo usar Protección de Datos Sensibles para medir varios tipos de riesgo, consulta Medir el riesgo de reidentificación y divulgación.
Términos y técnicas de análisis de riesgos
Si no anonimizas correctamente o de forma adecuada los datos sensibles, corres el riesgo de que un atacante vuelva a identificar los datos o descubra información sensible sobre personas, lo que puede tener graves consecuencias para la privacidad. Protección de Datos Sensibles puede ayudarte a calcular este riesgo según varias métricas.
Antes de analizar las métricas, definiremos algunos términos comunes:
- Identificadores: los identificadores se pueden usar para identificar de forma única a una persona. Por ejemplo, el nombre completo o el número del documento de identificación oficial de una persona se consideran identificadores.
- Cuasidentificadores: los cuasidentificadores no identifican de forma única a una persona, pero, al combinarse y contrastarse con los registros de un individuo, pueden aumentar considerablemente la probabilidad de que un atacante pueda reidentificarlo. Por ejemplo, los códigos postales y las edades se consideran cuasiidentificadores.
- Datos sensibles: son datos protegidos frente a la exposición no autorizada. Los atributos como el estado de salud, el salario, los delitos penales y la ubicación geográfica suelen considerarse datos sensibles. Ten en cuenta que puede haber solapamiento entre los identificadores y los datos sensibles.
- Clases de equivalencia: una clase de equivalencia es un grupo de filas con cuasi-identificadores idénticos.
Protección de Datos Sensibles puede usar cuatro técnicas para cuantificar el nivel de riesgo asociado a un conjunto de datos:
- k-anonymity: Propiedad de un conjunto de datos que indica la posibilidad de reidentificar sus registros. Se consideran k-anónimos los conjuntos de datos en los que los cuasidentificadores de cada persona son idénticos a por lo menos otras k – 1 personas.
- Diversidad l: extensión de la propiedad k-anonymity que mide la diversidad de los valores sensibles en cada columna en la que aparecen. Un conjunto de datos tiene la propiedad l-diversity cuando, para cada conjunto de filas con cuasidentificadores idénticos, hay por lo menos l valores distintos para cada atributo sensible.
- Mapa k: calcula el riesgo de reidentificación comparando un conjunto de datos desidentificado de sujetos con un conjunto de datos de reidentificación (o "ataque") más grande. Protección de Datos Sensibles no conoce el conjunto de datos de ataque, pero lo modeliza estadísticamente mediante datos disponibles públicamente, como el censo de EE. UU., mediante un modelo estadístico personalizado (indicado como una o varias tablas de BigQuery) o extrapolando la distribución de los valores del conjunto de datos de entrada. Cada conjunto de datos (el de muestra y el de reidentificación) comparte una o varias columnas de cuasi-identificadores.
- Presencia delta (δ-presencia): estima la probabilidad de que un usuario determinado de una población más grande esté presente en el conjunto de datos. Se usa cuando la pertenencia al conjunto de datos es información sensible. Al igual que k-map, Protección de Datos Sensibles no conoce el conjunto de datos de ataque, pero lo modeliza estadísticamente mediante datos disponibles públicamente, distribuciones especificadas por el usuario o extrapolación del conjunto de datos de entrada.
Información sobre la k-anonimidad
Cuando se recogen datos con fines de investigación, la anonimización puede ser esencial para ayudar a mantener la privacidad de los participantes. Al mismo tiempo, la desidentificación puede provocar que un conjunto de datos pierda su utilidad práctica. El modelo k-anonymity se creó para cuantificar la posibilidad de reidentificar un conjunto de datos y para equilibrar la utilidad de los datos de personas desidentificados y la privacidad de las personas cuyos datos se están utilizando. Es una propiedad de un conjunto de datos que se puede usar para evaluar la posibilidad de reidentificar los registros del conjunto de datos.
Por ejemplo, supongamos que tenemos un conjunto de datos de pacientes:
ID de paciente | Nombre completo | Código postal | Edad | Condición | ... |
---|---|---|---|---|---|
746572 | John J. Jacobsen | 98122 | 29 | Cardiopatía | |
652978 | Debra D. Rebotes defensivos | 98115 | 29 | Diabetes de tipo II | |
075321 | Abraham A. Abernathy | 98122 | 54 | Cáncer, hígado | |
339012 | Karen K. Cracovia | 98115 | 88 | Cardiopatía | |
995212 | William W. Wertheimer | 98115 | 54 | Asma | |
... |
Este conjunto de datos contiene los tres tipos de datos que hemos descrito anteriormente: identificadores, cuasiidentificadores y datos sensibles.
Si los datos sensibles, como las afecciones de salud, no se enmascaran ni se ocultan, un atacante podría usar los cuasi-identificadores a los que está asociado cada uno, posiblemente haciendo una referencia cruzada con otro conjunto de datos que contenga cuasi-identificadores similares, y volver a identificar a las personas a las que se aplican esos datos sensibles.
Se dice que un conjunto de datos es k-anónimo si cada combinación de valores de las columnas demográficas del conjunto de datos aparece en al menos k registros diferentes. Recuerda que un grupo de filas con cuasi-identificadores idénticos se denomina "clase de equivalencia". Por ejemplo, si has anonimizado los cuasidentificadores lo suficiente como para que haya un mínimo de cuatro filas cuyos valores de cuasidentificador sean idénticos, el valor de k-anonimato del conjunto de datos será 4.
IDs de entidad y cálculo de la k-anonimato
Una opción importante que incluye Protección de Datos Sensibles al calcular el anonimato k es el identificador de entidad (ID) opcional. Un ID de entidad le permite determinar con mayor precisión la k-anonimato en el caso habitual en el que varias filas de su conjunto de datos corresponden al mismo usuario. De lo contrario, si cada fila se cuenta por separado, independientemente del usuario, el número total de usuarios que se utiliza para calcular el valor de anonimato k del conjunto de datos será artificialmente alto. Esto hace que los valores de k-anonymity calculados sean imprecisos.
Consideremos el siguiente conjunto de datos sencillo:
ID de usuario | Código ZIP |
---|---|
01 | 42000 |
02 | 17000 |
02 | 42000 |
03 | 17000 |
03 | 42000 |
03 | 42000 |
04 | 42000 |
04 | 17000 |
Si no se usa un ID de entidad para indicar cuándo pertenecen diferentes filas al mismo usuario, el recuento total de usuarios que se usa al calcular la k-anonimato es 8, aunque el número real de usuarios sea 4. En este conjunto de datos, si se utilizan los métodos de cálculo de k-anonimato tradicionales (sin un ID de entidad), 3 personas tienen un valor de k-anonimato de 3 y 5 personas tienen un valor de k-anonimato de 5, aunque solo haya 4 personas en la base de datos.
Si se usa un ID de entidad, Protección de Datos Sensibles considera el conjunto de códigos postales con el que se asocia un usuario como un cuasi-identificador al calcular el k-anonimato. En nuestro ejemplo, hay tres valores de cuasi-identificador "compuestos", ya que hay tres combinaciones distintas de cuasi-identificadores que se asignan a los usuarios: 42000, el conjunto múltiple de 17000 y 42000, y el conjunto múltiple de 17000, 42000 y 42000. Se corresponden con los usuarios de la siguiente manera:
- [42000] está asociado a 1 usuario único (01).
- [17000, 42000] está asociado a dos usuarios únicos (02 y 04).
- [17000, 42000, 42000] está asociado a 1 usuario único (03).
Como puede ver, este método tiene en cuenta que los usuarios pueden aparecer más de una vez en nuestra base de datos de códigos postales y los trata en consecuencia al calcular el k-anonimato.
Recursos sobre k-anonymity
Para obtener más información sobre la anonimización k, consulta el artículo Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression (Protección de la privacidad al divulgar información: anonimización k y su aplicación mediante generalización y supresión) de Pierangela Samarati y Latanya Sweeney del laboratorio de privacidad de datos de la Universidad de Harvard.
Para saber cómo calcular la k-anonimato con Protección de Datos Sensibles, con o sin IDs de entidad, consulta Calcular la k-anonimato de un conjunto de datos.
Acerca de la l-diversidad
La l-diversidad está estrechamente relacionada con la k-anonimato y se creó para ayudar a abordar la susceptibilidad de un conjunto de datos anonimizado a ataques como los siguientes:
- Ataques de homogeneidad, en los que los atacantes predicen valores sensibles de un conjunto de datos k-anonimizados aprovechando la homogeneidad de los valores de un conjunto de k registros.
- Ataques de conocimiento general, en los que los atacantes aprovechan las asociaciones entre valores de cuasi-identificadores que tienen un atributo sensible determinado para reducir los posibles valores del atributo.
La propiedad l-diversity intenta medir cuánto puede averiguar un atacante sobre las personas en términos de k-anonimato y clases de equivalencia (conjuntos de filas con valores de cuasidentificadores idénticos). Un conjunto de datos tiene la propiedad l-diversity cuando, para cada clase de equivalencia, hay por lo menos l valores únicos para cada atributo sensible. Por cada clase de equivalencia, ¿cuántos atributos sensibles hay en el conjunto de datos? Por ejemplo, si la l-diversidad es igual a 1, significa que todos tienen el mismo atributo sensible. Si la l-diversidad es igual a 2, significa que todos tienen uno de los dos atributos sensibles, y así sucesivamente.
Recursos sobre l-diversidad
Para obtener más información sobre la l-diversidad, consulta l-Diversity: Privacy Beyond k-Anonymity, de Ashwin Machanavajjhala, Johannes Gerke y Daniel Kifer del Departamento de Informática de la Universidad de Cornell.
Para saber cómo calcular la l-diversidad con Protección de Datos Sensibles, consulta Calcular la l-diversidad de un conjunto de datos.
Información sobre el mapa k
El k-map es muy similar a la k-anonimidad, pero asume que es muy probable que el atacante no sepa quién está en el conjunto de datos. Usa k-map si tu conjunto de datos es relativamente pequeño o si el esfuerzo necesario para generalizar los atributos sería demasiado grande.
Al igual que la k-anonimidad, la k-map requiere que determines qué columnas de tu base de datos son cuasidentificadores. De esta forma, indicas qué datos es más probable que utilice un atacante para volver a identificar a los interesados. Además, para calcular el valor de k-anonimato, se necesita un conjunto de datos de reidentificación, es decir, una tabla más grande con la que comparar las filas del conjunto de datos original.
Veamos el siguiente conjunto de datos de ejemplo. Estos datos de muestra forman parte de una base de datos hipotética más grande, recopilada a partir de una encuesta cuyas respuestas incluían información sensible.
Código ZIP | age |
---|---|
85535 | 79 |
60629 | 42 |
Por sí solo, parece que ambos individuos tienen la misma cantidad de información. De hecho, si se tiene en cuenta la k-anonimato del conjunto de datos más grande, se podría afirmar que el sujeto correspondiente a la segunda fila es muy identificable. Sin embargo, si haces una copia de seguridad y analizas los datos, te darás cuenta de que no es así. En concreto, considera el código postal 85535 de Estados Unidos, en el que viven unas 20 personas. Probablemente solo haya una persona de exactamente 79 años en el código postal 85535. Compáralo con el código postal 60629, que forma parte del área metropolitana de Chicago y alberga a más de 100.000 personas. En ese código postal hay aproximadamente 1000 personas que tienen exactamente 42 años.
La primera fila de nuestro pequeño conjunto de datos se volvió a identificar fácilmente, pero no la segunda. Sin embargo, según la k-anonimidad, ambas filas podrían ser completamente únicas en el conjunto de datos más grande.
Al igual que la k-anonimidad, la k-mapa requiere que determines qué columnas de tu base de datos son cuasidentificadores. Las APIs de análisis de riesgos de Protección de Datos Sensibles simulan un conjunto de datos de reidentificación para aproximar los pasos que podría seguir un atacante para comparar el conjunto de datos original y reidentificar los datos. En el ejemplo anterior, como se trata de ubicaciones de EE. UU. (códigos postales) y datos personales (edades), y como suponemos que el atacante no sabe quién ha participado en la encuesta, el conjunto de datos de reidentificación podría ser cualquier persona que viva en EE. UU.
Ahora que tiene cuasidentificadores y un conjunto de datos de reidentificación, puede calcular el valor de k-anonimato: sus datos cumplen el k-anonimato con el valor k si cada combinación de valores de los cuasidentificadores aparece al menos k veces en el conjunto de datos de reidentificación.
Teniendo en cuenta esta definición y que la primera fila de nuestra base de datos probablemente solo corresponda a una persona de EE. UU., el conjunto de datos de ejemplo no cumple el requisito de valor k-map de 2 o más. Para obtener un valor de k-map mayor, podemos eliminar los valores de edad, como hemos hecho aquí:
Código ZIP | age |
---|---|
85535 | ** |
60629 | ** |
Como hemos mencionado anteriormente, el código postal 85535 tiene unos 20 habitantes y el 60629,más de 100.000. Por lo tanto, podemos estimar que este nuevo conjunto de datos generalizado tiene un valor de k de aproximadamente 20.
Recursos de k-map
Para obtener más información sobre el mapa k y su relación con el anonimato k, consulta el artículo Protecting Privacy Using k-Anonymity (Protección de la privacidad mediante el anonimato k) de Khaled El Emam y Fida Kamal Dankar en el Journal of the American Medical Informatics Association (Revista de la Asociación Americana de Informática Médica).
Para saber cómo calcular estimaciones de k-map con Protección de Datos Sensibles, consulta el artículo Calcular k-map de un conjunto de datos.
Información sobre la δ-presencia
La presencia delta (δ-presencia) estima el riesgo asociado a un atacante que quiere averiguar si su objetivo está en el conjunto de datos. Es ligeramente diferente del riesgo de reidentificación, ya que el objetivo no es encontrar qué registro exacto corresponde a qué persona, sino solo saber si una persona forma parte del conjunto de datos. Usar esta métrica es especialmente adecuado si todos los individuos del conjunto de datos comparten un atributo sensible común; por ejemplo, si todos tienen el mismo diagnóstico médico.
Al igual que las otras métricas de riesgo, δ-presencia requiere que determines qué columnas de tu base de datos son cuasi-identificadores. De esta forma, indicas qué datos es más probable que utilice un atacante para averiguar qué personas se incluyen en el conjunto de datos. Al igual que k-map, para calcular δ-presencia se necesita un conjunto de datos de ataque, es decir, una tabla más grande con la que comparar las filas del conjunto de datos original.
Veamos el siguiente conjunto de datos de ejemplo. Estos datos de muestra forman parte de una base de datos hipotética más grande de personas con una determinada enfermedad genética.
Código ZIP | age |
---|---|
85942 | 72 |
85942 | 72 |
62083 | 53 |
En el código postal 85942 de Estados Unidos, hay aproximadamente 2 personas de 72 años, y en el código postal 62083, hay aproximadamente 5 personas de 53 años. Los dos primeros registros no se pueden volver a identificar exactamente porque ambos tienen los mismos cuasi-identificadores. Sin embargo, como solo dos personas comparten estos cuasi-identificadores en la población más grande, un atacante puede deducir que ambas padecen la enfermedad genética. δ-presencia cuantifica este riesgo concreto calculando la proporción de personas con determinados cuasi-identificadores que se encuentran en el conjunto de datos.
La δ-presencia, al igual que las demás métricas de riesgo, requiere que determine qué columnas de su base de datos son cuasi-identificadores. Al igual que en la estimación de k-anonimato, las APIs de análisis de riesgos de Protección de Datos Sensibles simulan un conjunto de datos de población para aproximarse al conjunto de datos que un atacante podría usar para averiguar quién está en el conjunto de datos. En el ejemplo anterior, como se trata de ubicaciones de EE. UU. (códigos postales) y datos personales (edades), y como suponemos que el atacante no sabe quién tiene la enfermedad genética, este conjunto de datos de la población podría incluir a todos los habitantes de EE. UU.
Ahora que tiene cuasidentificadores y un conjunto de datos de reidentificación, puede calcular el valor de δ-presencia: sus datos cumplen la δ-presencia con el valor δ si cada combinación de valores de los cuasidentificadores aparece como máximo δ * k veces en su conjunto de datos, donde k es el número total de personas con estos valores de cuasidentificador en el conjunto de datos de la población. A diferencia de k en la k-anonimidad o el k-map, el δ de la δ-presencia es un número real entre 0 y 1.
Teniendo en cuenta esta definición y que ambas personas de 72 años del código postal 85942 de la población general también están en nuestra base de datos, este conjunto de datos no cumple la δ-presencia para ningún δ estrictamente inferior a 1. Para obtener un valor de δ-presencia más bajo, podríamos quitar el valor de antigüedad de las dos primeras filas:
Código ZIP | age |
---|---|
85942 | ** |
85942 | ** |
62083 | 53 |
Ahora, como 80 personas viven en el código postal 85942, el valor δ de los dos primeros registros es aproximadamente 2 / 80 = 2,5 %, y el valor δ del tercer registro es aproximadamente 1 / 5 = 20%. Por lo tanto, podemos estimar que este nuevo conjunto de datos generalizado tiene un valor de δ-presencia de aproximadamente el 20%.
Recursos de δ-presencia
Para obtener más información sobre la estimación de la presencia δ basada en datos estadísticos, consulta δ-Presence Without Complete World Knowledge (Presencia δ sin conocimiento completo del mundo), de Mehmet Ercan Nergiz y Chris Clifton del Departamento de Informática de la Universidad de Purdue.
Para obtener información sobre cómo calcular estimaciones de δ-presencia con Protección de Datos Sensibles, consulta Calcular δ-presencia de un conjunto de datos.