Análisis de reidentificación de riesgo

El análisis de riesgos de reidentificación (o solo análisis de riesgos) es el proceso de análisis de datos sensibles para encontrar propiedades que podrían aumentar el riesgo de que se identifique a las personas, o bien se brinda información sensible sobre personas reveladas. Puedes usar métodos de análisis de riesgos antes de la desidentificación a fin de determinar una estrategia efectiva o después de esta para supervisar cualquier cambio o valor atípico.

La desidentificación es el proceso de quitar información de identificación de los datos. La protección de datos sensibles puede detectar y desidentificar datos sensibles según la configuración que hayas configurado para cumplir con los requisitos de tu organización.

A la inversa, la reidentificación es el proceso de hacer coincidir los datos desidentificados con otros datos disponibles para determinar a quién pertenecen. Se habla más a menudo de la reidentificación en el contexto de información personal sensible, como datos médicos o financieros.

Si quieres obtener más información sobre el uso de la protección de datos sensibles para medir varios tipos de riesgo, consulta Mide el riesgo de reidentificación y divulgación.

Términos y técnicas de análisis de riesgos

Si no desidentificas los datos sensibles de forma correcta y adecuada, te arriesgas a que un atacante reidentifique los datos y obtenga información sensible sobre las personas, lo que puede tener consecuencias graves con respecto a la privacidad. La protección de datos sensibles puede ayudar a calcular este riesgo, según varias métricas.

Antes de hablar de las métricas, definiremos los siguientes términos comunes:

  • Identificadores: pueden usarse para identificar de manera única a una persona. Por ejemplo, se consideran identificadores el nombre completo de una persona o su identificación personal emitida por el Gobierno.
  • Cuasi-identificadores: no identifican de manera única a una persona, pero cuando se combinan con registros individuales o se hacen referencias cruzadas con estos, pueden aumentar de forma sustancial la probabilidad de que un atacante pueda reidentificar a una persona. Por ejemplo, los códigos postales y las edades se consideran cuasi-identificadores.
  • Datos sensibles: son datos protegidos contra la exposición no autorizada. Los atributos como el estado de salud, el salario, los delitos penales y la ubicación geográfica se suelen considerar datos sensibles. Ten en cuenta que puede haber una superposición entre los identificadores y los datos sensibles.
  • Clases de equivalencia: grupo de filas con cuasi-identificadores idénticos.

La protección de datos sensibles puede usar cuatro técnicas para cuantificar el nivel de riesgo asociado con un conjunto de datos:

  • k-anonimato: propiedad de un conjunto de datos que indica la capacidad de reidentificación de sus registros. Un conjunto de datos es k-anónimo si los cuasi identificadores de cada persona en él son idénticos a los de al menos k – 1 personas en el conjunto.
  • l-diversidad: una extensión de k-anonimato que mide adicionalmente la diversidad de valores sensibles para cada columna. Un conjunto de datos tiene l-diversidad si, para cada conjunto de filas con cuasi identificadores idénticos, hay al menos l valores distintos para cada atributo sensible.
  • k-mapa: calcula el riesgo de la capacidad de reidentificación mediante la comparación de un conjunto de datos desidentificados de personas con un conjunto de datos de reidentificación, o “ataque”, más grande. La protección de datos sensibles no conoce el conjunto de datos de ataque, pero lo modela estadísticamente con datos disponibles públicamente, como el censo de EE.UU., con un modelo estadístico personalizado (indicado como una o más tablas de BigQuery) o mediante la extrapolación de la distribución de valores en el conjunto de datos de entrada. Cada conjunto de datos, el conjunto de datos de muestra y el de reidentificación, comparte una o más columnas de cuasi identificador.
  • Delta-presencia (δ-presencia): estima la probabilidad de que un usuario determinado en una población mayor esté presente en el conjunto de datos. Esto se usa cuando la membresía en el conjunto de datos es en sí misma información sensible. Al igual que el k-mapa, la protección de datos sensibles no conoce el conjunto de datos de ataque, pero lo modela estadísticamente con datos disponibles públicamente, distribuciones especificadas por el usuario o la extrapolación del conjunto de datos de entrada.

Acerca del k-anonimato

Cuando se recopilan datos con fines de investigación, la desidentificación puede ser esencial para mantener la privacidad de los participantes. Al mismo tiempo, la desidentificación puede hacer que un conjunto de datos pierda su utilidad práctica. El k-anonimato nace del deseo de cuantificar la capacidad de reidentificación de un conjunto de datos y de equilibrar la utilidad de los datos desidentificados de personas y la privacidad de aquellas cuyos datos se usan. Es una propiedad de un conjunto de datos que se puede usar para evaluar la capacidad de reidentificación de los registros dentro del conjunto de datos.

Como ejemplo, considera el siguiente conjunto de datos de pacientes:

ID de paciente Nombre completo Código postal Edad Afección ...
746572 El aeropuerto internacional John J. Jacobsen 98122 29 Enfermedad cardíaca
652978 Débora D. Dreb 98115 29 Diabetes de tipo 2
075321 Abraham A. Abernathy 98122 54 Cáncer de hígado
339012 La Dra. Karen K. Cracovia 98115 88 Enfermedad cardíaca
995212 El aeropuerto William W. Wertheimer 98115 54 Asma
...

Este conjunto de datos contiene los tres tipos de datos que ya describimos: identificadores, cuasi-identificadores y datos sensibles.

Si no se enmascaran ni se ocultan los datos sensibles, como los padecimientos, un atacante podría usar los cuasi-identificadores que están conectados a cada uno de ellos, realizar una referencia cruzada con otro conjunto de datos que contenga cuasi-identificadores similares y reidentificar a las personas a las que corresponde esta información sensible.

Se dice que un conjunto de datos es k-anónimo si cada combinación de valores de columnas demográficas en él aparece en al menos k registros diferentes. Recuerda que un grupo de filas con cuasi identificadores idénticos se denomina “clase de equivalencia”. Por ejemplo, si desidentificaste los cuasi identificadores lo suficiente como para que haya un mínimo de cuatro filas cuyos valores cuasi identificadores son idénticos, el valor de k-anonimato del conjunto de datos es 4.

ID de entidades y cálculo del k-anonimato

Una opción importante que la Protección de datos sensibles incluye cuando se calcula el k-anonimato es el identificador de entidad (ID) opcional. Un ID de entidad te permite determinar con mayor precisión el k-anonimato en una situación común en la que varias filas de tu conjunto de datos corresponden al mismo usuario. De lo contrario, si cada fila, sin importar el usuario, se cuenta por separado, el conteo total de usuarios usado para calcular el valor de k-anonimato del conjunto de datos aumenta de forma artificial. Esto hace que los valores de k-anonimato calculados no sean exactos.

Considera el siguiente conjunto simple de datos:

ID de usuario Código postal
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Sin usar un ID de entidad para comprobar cuando diferentes filas pertenecen al mismo usuario, el recuento total de usuarios que se usa en el cálculo del k-anonimato es 8, aunque el número real de usuarios sea 4. En este conjunto de datos, con los métodos tradicionales de cálculo de k-anonimato (sin un ID de entidad), 3 personas tienen un valor de k-anonimato de 3, y 5 personas tienen un valor de k-anonimato de 5, aunque solo haya 4 personas reales en la base de datos.

El uso de un ID de entidad hace que la protección de datos sensibles considere el conjunto múltiple de códigos postales asociado a un usuario como cuasidentificador para calcular el k-anonimato. En el caso de nuestro ejemplo, en realidad hay tres valores de cuasi-identificador “compuestos” porque hay tres combinaciones distintas de cuasi-identificador que se asignan a los usuarios: 42,000, el conjunto múltiple de 17,000 y 42,000, y el conjunto múltiple de 17,000, 42,000, y 42,000. Se corresponden con los usuarios de la siguiente manera:

  • [42,000] está asociado con 1 usuario único (01).
  • [17,000, 42,000] está asociado con 2 usuarios únicos (02 y 04).
  • [17,000, 42,000, 42,000] está asociado con 1 usuario único (03).

Como puedes ver, en este método se considera que los usuarios pueden aparecer más de una vez en nuestra base de datos de códigos postales y se los trata en consecuencia cuando se calcula el k-anonimato.

Recursos del k-anonimato

Para obtener más información sobre el k-anonimato, consulta Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression (Protección de la privacidad al divulgar información: k-anonimato y su aplicación a través de la generalización y supresión), de Pierangela Samarati and Latanya Sweeney del Laboratorio de Privacidad de Datos de Harvard University.

Para aprender a calcular el k-anonimato con la protección de datos sensibles, con o sin IDs de entidad, consulta Calcula el k-anonimato de un conjunto de datos.

Acerca de la l-diversidad

La l-diversidad está muy relacionada con el k-anonimato y se creó para ayudar a abordar la susceptibilidad a ataques de un conjunto de datos desidentificado. Los ataques pueden ser de los siguientes tipos:

  • Ataques de homogeneidad, en los que los atacantes predicen valores sensibles para un conjunto de datos k-anonimizados y aprovechan la homogeneidad de los valores dentro de un conjunto de registros k.
  • Ataques de conocimiento previo, en los que los atacantes aprovechan las asociaciones entre valores de cuasi-identificador que tienen un cierto atributo sensible para restringir los posibles valores del atributo.

La l-diversidad intenta medir cuánto puede averiguar un atacante sobre las personas en términos de k-anonimato y clases de equivalencia (conjuntos de filas con valores de cuasi-identificador idénticos). Un conjunto de datos tiene l-diversidad si, para cada clase de equivalencia, existen al menos l valores únicos para cada atributo sensible. Para cada clase de equivalencia, ¿cuántos atributos sensibles hay en el conjunto de datos? Por ejemplo, si la l-diversidad = 1, significa que todos tienen el mismo atributo sensible; si la l-diversidad = 2, significa que todos tienen uno de dos atributos sensibles, y así sucesivamente.

Recursos de la l-diversidad

Para obtener más información sobre la l-diversidad, consulta l-Diversity: Privacy Beyond k-Anonymity (l-diversidad: privacidad más allá del k-anonimato), de Ashwin Machanavajjhala, Johannes Gerke y Daniel Kifer del Departamento de Informática de Cornell University.

Para obtener más información sobre cómo calcular la l-diversidad con la protección de datos sensibles, consulta Calcula la l-diversidad para un conjunto de datos.

Acerca del k-mapa

El k-mapa es muy similar al k-anonimato, excepto que este supone que lo más probable es que el atacante no sepa quién está en el conjunto de datos. Usa el k-mapa si tu conjunto de datos es relativamente pequeño o si el esfuerzo que conlleva la generalización de atributos es demasiado alto.

Al igual que el k-anonimato, el k-mapa requiere que determines qué columnas de tu base de datos son cuasi-identificadores. De esta manera, indicas cuáles son los datos que un atacante tiene más probabilidad de usar para reidentificar a las personas. Además, calcular un valor de k-mapa requiere un conjunto de datos de reidentificación: una tabla más grande con la que puedas comparar filas en el conjunto de datos original.

Considera el siguiente conjunto de datos pequeño de ejemplo. Estos datos de muestra forman parte de una base de datos hipotética más grande, obtenida de una encuesta cuyas respuestas incluían información sensible.

Código postal Edad
85535 79
60629 42

Por sí sola, esta parece ser la misma cantidad de información para ambos individuos. De hecho, si se considera el k-anonimato para el conjunto de datos más grande podría conducir a la afirmación de que la persona que corresponde a la segunda fila es muy identificable. Sin embargo, si lo piensas un momento y consideras los datos, te darás cuenta de que no lo es. En particular, analiza el código postal 85535 de Estados Unidos, una zona en la que viven unas 20 personas en la actualidad. Es probable que solo una persona de exactamente 79 años de edad viva en la zona del código postal 85535. Compara esto con el código postal 60629, que forma parte del área metropolitana de Chicago y alberga a más de 100,000 personas. Hay alrededor de 1,000 personas de exactamente 42 años de edad en la zona de ese código postal.

La primera fila en nuestro conjunto de datos pequeño se reidentificó con facilidad, pero no la segunda. Sin embargo, según el k-anonimato, puede que ambas filas sean únicas en su totalidad en el conjunto de datos más grande.

El k-mapa, al igual que el k-anonimato, requiere que determines qué columnas de tu base de datos son cuasi-identificadores. Las APIs de análisis de riesgos de la protección de datos sensibles simulan un conjunto de datos de reidentificación a fin de aproximar los pasos que podría seguir un atacante para comparar el conjunto de datos original y volver a identificar los datos. En nuestro ejemplo anterior, dado que se trata de lugares en los EE.UU. (códigos postales) y datos personales (edades), y debido a que suponemos que el atacante no sabe quiénes participaron en la encuesta, el conjunto de datos de reidentificación podría incluir a todos los que viven en los EE.UU.

Ahora que tienes cuasi-identificadores y un conjunto de datos de reidentificación, puedes calcular el valor de k-mapa: tus datos satisfacen el k-mapa con valor k si cada combinación de valores para los cuasi-identificadores aparece al menos k veces en el conjunto de datos de reidentificación.

De acuerdo con esta definición y a la alta probabilidad de que la primera fila en nuestra base de datos corresponda solo a una persona en los EE.UU., el conjunto de datos de ejemplo no satisface un requisito de valor de k-mapa de 2 o más. Para obtener un valor de k-mapa mayor, se podrían quitar los valores de edad como lo hicimos aquí:

Código postal Edad
85535 **
60629 **

Como ya se mencionó, en la zona del código postal 85535 hay alrededor de 20 personas y en la de 60629 hay más de 100,000. Por lo tanto, podemos estimar que este nuevo conjunto de datos generalizado tiene un valor k-mapa de alrededor de 20.

Recursos del k-mapa

Para obtener más información sobre el k-mapa y su relación con el k-anonimato, consulta Protecting Privacy Using k-Anonymity (Protección de la privacidad con k-anonimato), de Khaled El Emam y Fida Kamal Dankar, en el Journal of American Medical Informatics Association.

Para obtener información sobre cómo calcular las estimaciones de k-mapa con la protección de datos sensibles, consulta Cómo calcular el k-mapa para un conjunto de datos.

Acerca de la δ-presencia

Delta-presencia (δ-presencia) estima el riesgo asociado con un atacante que desea averiguar si su objetivo está en el conjunto de datos. Esto es un poco diferente al riesgo de reidentificación, ya que el objetivo no es encontrar el registro exacto que le corresponde a cada persona, sino saber si una persona forma parte del conjunto de datos. El uso de esta métrica es lo más adecuado si todas las personas en el conjunto de datos tienen un atributo sensible en común; por ejemplo, todas tienen el mismo diagnóstico médico.

Al igual que las otras métricas de riesgo, la δ-presencia requiere que determines qué columnas de tu base de datos son cuasi-identificadores. De esta manera, indicas cuáles son los datos que un atacante tiene más probabilidad de usar para encontrar a los individuos en el conjunto de datos. Al igual que el k-mapa, calcular la δ-presencia requiere un conjunto de datos de ataque: una tabla más grande con la que comparar filas en el conjunto de datos original.

Considera el siguiente conjunto de datos pequeño de ejemplo. Estos datos de muestra forman parte de una base de datos hipotética más grande de personas con cierta enfermedad genética.

Código postal Edad
85942 72
85942 72
62083 53

En el código postal 85942 de los Estados Unidos, hay aproximadamente 2 personas de 72 años y en el código postal 62083, hay alrededor de 5 personas de 53 años. Los dos primeros registros no son exactamente reidentificables porque ambos tienen los mismos cuasi-identificadores. Pero como solo dos individuos poseen estos cuasi-identificadores en la población más grande, un atacante puede deducir que ambos padecen la enfermedad genética. La δ-presencia cuantifica este riesgo particular mediante el cálculo de la proporción de personas con ciertos cuasi-identificadores que están en el conjunto de datos.

La δ-presencia, al igual que las otras métricas de riesgo, requiere que determines qué columnas de tu base de datos son cuasi-identificadores. Y, al igual que para la estimación del k-mapa, las APIs de análisis de riesgos de la protección de datos sensibles simulan un conjunto de datos de población a fin de estimar el conjunto de datos que un atacante podría usar para averiguar quién está en el conjunto de datos. En nuestro ejemplo anterior, dado que se trata de lugares en los EE.UU. (códigos postales) y datos personales (edades), y debido a que suponemos que el atacante no sabe quiénes poseen la enfermedad genética, el conjunto de datos de población podría incluir a todos los que viven en los EE.UU.

Ahora que tienes cuasi-identificadores y un conjunto de datos de reidentificación, puedes calcular el valor de δ-presencia: tus datos satisfacen la δ-presencia con valor δ si cada combinación de valores para los cuasi-identificadores aparece, como máximo, δ * k veces en tu conjunto de datos, donde k es el número total de personas con estos valores de cuasi-identificador en el conjunto de datos de población. A diferencia de k en k-anonimato o k-mapa, la δ en δ-presencia es un número real entre 0 y 1.

Dada esta definición y que las dos personas de 72 años de edad en la zona del código postal 85942 en la población general también se encuentran en nuestra base de datos, este conjunto de datos no satisface la δ-presencia para cualquier δ estrictamente menor que 1. Para obtener un valor de δ-presencia menor, podríamos quitar el valor de edad en las dos primeras filas:

Código postal Edad
85942 **
85942 **
62083 53

Ahora, ya que 80 personas viven en la zona del código postal 85942, el valor de δ para los dos primeros registros es alrededor de 2/80 = 2.5% y el valor de δ para el tercer registro es alrededor de 1/5 = 20%. Por lo tanto, podemos estimar que este nuevo conjunto de datos generalizado tiene un valor de δ-presencia de alrededor del 20%.

Recursos de la δ-presencia

Para obtener más información sobre la estimación de la δ-presencia basada en datos estadísticos, consulta δ-Presence Without Complete World Knowledge (Presencia sin conocimiento mundial completo), de Mehmet Ercan Nergiz y Chris Clifton del Departamento de Informes Técnicos de Informática de Purdue University.

Para aprender a calcular las estimaciones de la privacy-presencia con la protección de datos sensibles, consulta cómo calcular la CTR de un conjunto de datos.