Analyse des risques de la restauration de l'identification

L'analyse des risques de la restauration de l'identification (ou tout simplement l'analyse des risques) est le processus d'analyse des données sensibles qui permet de trouver les propriétés susceptibles d'augmenter le risque d'identification des sujets ou de divulgation d'informations personnelles sensibles. Vous pouvez employer des méthodes d'analyse des risques avant la suppression de l'identification pour vous aider à déterminer une stratégie efficace, ou bien après cette étape pour surveiller les modifications ou les anomalies.

La suppression de l'identification permet de supprimer des informations personnelles dans des données. La protection des données sensibles peut détecter et anonymiser les données sensibles en fonction de la configuration que vous avez effectuée pour vous conformer aux exigences de votre organisation.

Inversement, la restauration de l'identification consiste à faire correspondre des données anonymisées avec d'autres données disponibles afin de déterminer la personne à qui elles appartiennent. La restauration de l'identification est le plus souvent utilisée dans le contexte d'informations personnelles sensibles, telles que des données médicales ou financières.

Pour en savoir plus sur l'utilisation de la protection des données sensibles pour mesurer les différents types de risques, consultez la page Mesurer le risque de restauration de l'identification et de divulgation.

Termes et techniques d'analyse des risques

Si vous ne supprimez pas l'identification des données sensibles de façon correcte ou adéquate, des pirates informatiques risquent de restaurer l'identification des données ou d'obtenir des informations sensibles sur des personnes, ce qui peut avoir des répercussions graves sur la confidentialité. La protection des données sensibles peut aider à calculer ce risque, selon plusieurs métriques.

Avant d'aborder les métriques, nous allons définir certains termes courants :

  • Identifiants : les identifiants permettent d'identifier de manière unique un individu. Par exemple, les noms complets ou les numéros de carte d'identité nationale sont considérés comme des identifiants.
  • Quasi-identifiants : les quasi-identifiants ne permettent pas d'identifier de manière unique un individu. Cependant, lorsqu'ils sont combinés et recoupés avec d'autres enregistrements sur l'individu, ils peuvent considérablement augmenter la probabilité qu'un pirate informatique réussisse à restaurer l'identification de cet individu. Par exemple, les codes postaux et les âges sont considérés comme des quasi-identifiants.
  • Données sensibles : il s'agit de données protégées contre l'exposition non autorisée. Par exemple, les maladies, le salaire, les infractions criminelles et l'emplacement géographique sont généralement considérés comme des données sensibles. Sachez que les identifiants et les données sensibles peuvent se recouper.
  • Classes d'équivalence : une classe d'équivalence est un groupe de lignes présentant des quasi-identifiants identiques.

La protection des données sensibles peut utiliser quatre techniques pour quantifier le niveau de risque associé à un ensemble de données:

  • k-anonymat : propriété d'ensemble de données indiquant la possibilité de restaurer l'identification de ses enregistrements. Un ensemble de données est considéré comme k-anonyme si les quasi-identifiants de chaque individu dans l'ensemble de données sont identiques à au moins k - 1 autres individus figurant également dans l'ensemble de données.
  • l-diversité : extension de la propriété k-anonymat qui mesure de surcroît la diversité des valeurs sensibles pour chaque colonne où elles apparaissent. Un ensemble de données possède une propriété l-diversité si, pour chaque ensemble de lignes possédant le même quasi-identifiant, il y a au moins l valeurs distinctes pour chaque attribut sensible.
  • k-table : métrique permettant de calculer le risque de restauration de l'identification en comparant un ensemble de données anonymisé sur des sujets avec un ensemble de données de restauration de l'identification (ou d'attaque) plus grand. Le service de protection des données sensibles ne connaît pas l'ensemble de données d'attaque, mais le modélise statistiquement à l'aide de données accessibles au public telles que le recensement américain, à l'aide d'un modèle statistique personnalisé (indiqué comme une ou plusieurs tables BigQuery) ou en extrapolant à partir de la distribution des valeurs dans l'ensemble de données d'entrée. Chaque ensemble de données, c'est-à-dire l'ensemble de données évalué et l'ensemble de données de restauration de l'identification, partage une ou plusieurs colonnes de quasi-identifiants.
  • Delta-présence (δ-présence) : métrique estimant la probabilité qu'un individu d'une population plus importante appartienne à l'ensemble de données. Elle est utilisée lorsque l'appartenance à l'ensemble de données est elle-même une information sensible. Comme pour la méthode k-table, la protection des données sensibles ne connaît pas l'ensemble de données d'attaque, mais le modélise statistiquement à l'aide de données accessibles au public, de distributions spécifiées par l'utilisateur ou d'extrapolations basées sur l'ensemble de données d'entrée.

À propos du k-anonymat

Lors de la collecte de données à des fins de recherche, la suppression de l'identification peut être essentielle pour préserver la confidentialité des participants. En même temps, la suppression de l'identification peut faire perdre à un ensemble de données son utilité pratique. La propriété k-anonymat a été créée afin de quantifier la possibilité de restauration de l'identification d'un ensemble de données tout en équilibrant l'utilité des données anonymisées et la confidentialité des individus concernés. Cette propriété d'ensemble de données vous permet d'évaluer le risque de restauration de l'identification des enregistrements figurant dans l'ensemble de données.

Prenons comme exemple un ensemble de données de patients :

ID du patient Nom complet Code postal Âge Pathologie ...
746572 John J. Jacobsen 98122 29 Cardiopathie
652978 Debra D. Dreb 98115 29 Diabète, type II
075321 Abraham A. Abernathy 98122 54 Cancer du foie
339012 Karen K. Cracovie 98115 88 Cardiopathie
995212 William W. Wertheimer 98115 54 Asthme
...

Cet ensemble de données contient les trois types de données que nous avons décrits précédemment : les identifiants, les quasi-identifiants et les données sensibles.

Si des données sensibles telles que les pathologies ne sont pas masquées ni supprimées, un pirate informatique peut potentiellement exploiter les quasi-identifiants auxquels chacune d'elles est associée, les corréler potentiellement avec un autre ensemble de données contenant des quasi-identifiants similaires, et restaurer l'identification des personnes à qui ces données sensibles appartiennent.

Un ensemble de données est considéré comme "k-anonyme" si chaque combinaison de valeurs dans les colonnes des données démographiques apparaît pour au moins k enregistrements différents. Comme indiqué précédemment, un groupe de lignes avec des quasi-identifiants identiques s'appelle une "classe d'équivalence". Par exemple, si vous avez anonymisé des quasi-identifiants pour qu'il y ait un minimum de quatre lignes avec des valeurs de quasi-identifiant identiques, la valeur de la k-anonymat de l'ensemble de données est égale à 4.

ID d'entité et calcul de k-anonymat

Une option importante que la protection des données sensibles inclut lors du calcul de k-anonymat est l'identifiant (ID) d'entité facultatif. Un ID d'entité vous permet de déterminer plus précisément la propriété k-anonymat lorsque plusieurs lignes de votre ensemble de données correspondent au même utilisateur, ce qui arrive fréquemment. Dans le cas contraire, si chaque ligne est comptée séparément quel que soit l'utilisateur, cela augmente artificiellement le nombre total d'utilisateurs pris en compte dans le calcul de la valeur de k-anonymat. Résultat, les valeurs de k-anonymat sont inexactes.

Considérez l'ensemble de données simple ci-dessous :

ID utilisateur Code postal
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Si vous ne vous servez pas d'ID d'entité pour identifier les différentes lignes correspondant au même utilisateur, le nombre total d'utilisateurs pris en compte pour le calcul de k-anonymat est de 8, alors que le nombre réel d'utilisateurs est de 4. Dans cet ensemble de données, si vous appliquez les méthodes traditionnelles de calcul de la propriété k-anonymat (sans ID d'entité), 3 personnes ont une valeur k-anonymat de 3 et 5 personnes ont une valeur k-anonymat de 5, alors qu'il n'y a en fait que 4 personnes dans la base de données.

L'utilisation d'un ID d'entité amène la protection des données sensibles à considérer le multi-ensemble des codes postaux auxquels un utilisateur est associé comme un quasi-identifiant lors du calcul de la valeur k-anonymat. Dans notre exemple, il existe en réalité trois valeurs de quasi-identifiants "composites", car trois combinaisons distinctes de quasi-identifiants sont attribuées aux utilisateurs : 42000, le multi-ensemble constitué de 17000 et 42000, et le multi-ensemble constitué de 17000, 42000 et 42000. Ils correspondent aux utilisateurs comme indiqué ci-dessous :

  • [42000] est associé à 1 utilisateur unique (01).
  • [17000, 42000] est associé à 2 utilisateurs uniques (02 et 04).
  • [17000, 42000, 42000] est associé à 1 utilisateur unique (03).

Comme vous pouvez le constater, cette méthode tient compte du fait que certains utilisateurs peuvent apparaître plusieurs fois dans notre base de données de codes postaux. Elle les traite en conséquence lors du calcul de la propriété k-anonymat.

Ressources relatives au k-anonymat

Pour en savoir plus sur la propriété k-anonymat, consultez l'article Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression rédigé par Pierangela Samarati et Latanya Sweeney du Data Privacy Lab de l'Université de Harvard.

Pour savoir comment calculer la propriété k-anonymat avec la protection des données sensibles, avec ou sans ID d'entité, consultez Calculer la propriété k-anonymat pour un ensemble de données.

À propos de la l-diversité

La propriété l-diversité est étroitement liée à la propriété k-anonymat. Elle a été créée pour corriger la vulnérabilité d'un ensemble de données anonymisées face à des attaques telles que celles décrites ci-dessous :

  • Les attaques d'homogénéité, dans lesquelles les pirates informatiques prédisent des valeurs sensibles pour un ensemble de données k-anonymisées en tirant parti de l'homogénéité des valeurs dans un ensemble d'enregistrements k
  • Les attaques de connaissances de base, dans lesquelles les pirates informatiques tirent parti d'associations entre des valeurs de quasi-identifiants ayant un certain attribut sensible pour affiner les valeurs possibles de l'attribut

La propriété l-diversité essaie de mesurer ce qu'un pirate informatique peut apprendre sur les individus en termes de k-anonymat et de classes d'équivalence (ensembles de lignes possédant les mêmes valeurs de quasi-identifiants). Un ensemble de données possède une propriété l-diversité si, pour chaque classe d'équivalence, il y a au moins l valeurs uniques pour chaque attribut sensible. Pour chaque classe d'équivalence, combien d'attributs sensibles existe-t-il dans l'ensemble de données ? Par exemple, si l-diversité = 1, cela signifie que tous les individus possèdent le même attribut sensible. Si l-diversité = 2, cela signifie que tous les individus possèdent l'un des deux attributs sensibles, et ainsi de suite.

Ressources relatives à la l-diversité

Pour en savoir plus sur la propriété l-diversité, consultez l'article l-Diversity: Privacy Beyond k-Anonymity rédigé par Ashwin Machanavajjhala, Johannes Gerke et Daniel Kifer du Département d'informatique de l'Université Cornell.

Pour savoir comment calculer la l-diversité avec la protection des données sensibles, consultez la section Calculer la propriété l-diversité pour un ensemble de données.

À propos de la k-table

La technique k-table est semblable à la propriété k-anonymat, sauf qu'elle suppose que le pirate informatique ne sait probablement pas qui figure dans l'ensemble de données. Utilisez la technique k-table si votre ensemble de données est relativement petit ou si les tâches de généralisation des attributs seraient trop longues.

Tout comme la propriété k-anonymat, la technique k-table nécessite que vous déterminiez les colonnes de votre base de données correspondant à des quasi-identifiants. De ce fait, vous indiquez les données qu'un pirate informatique est le plus susceptible d'utiliser pour restaurer l'identification des sujets. En outre, le calcul d'une valeur k-table nécessite un ensemble de données de restauration de l'identification : un tableau plus grand avec lequel comparer les lignes de l'ensemble de données d'origine.

Prenons comme exemple le petit ensemble de données suivant. Cet échantillon de données fait partie d'une base de données hypothétique plus importante, issue d'une étude dont les réponses incluaient des informations sensibles.

Code postal Âge
85535 79
60629 42

Si cet exemple est considéré isolément, il semble présenter la même quantité d'informations pour les deux individus. En fait, en appliquant la propriété k-anonymat à l'ensemble de données plus vaste, vous pourriez affirmer que le sujet correspondant à la deuxième ligne est très facile à identifier. Cependant, si vous examinez les données plus en détail, vous vous rendrez compte que ce n'est pas le cas. En particulier, prenons le code postal 85535 des États-Unis qui compte environ 20 habitants actuellement. Il n'y a probablement qu'une seule personne âgée de 79 ans et vivant dans la zone correspondant au code postal 85535. Comparez-le au code postal 60629 qui fait partie de la région métropolitaine de Chicago et compte plus de 100 000 habitants. Il y a environ 1 000 personnes âgées de 42 ans vivant dans une zone de ce code postal.

L'identification de la première ligne de notre petit ensemble de données a été facilement restaurée, mais pas la seconde. Cependant, selon la propriété k-anonymat, les deux lignes peuvent être complètement uniques dans l'ensemble de données plus volumineux.

La technique k-table, comme la propriété k-anonymat, nécessite que vous déterminiez les colonnes de votre base de données correspondant à des quasi-identifiants. Les API d'analyse des risques de la protection des données sensibles simulent un ensemble de données de restauration de l'identification pour estimer les étapes qu'un pirate informatique peut suivre pour comparer l'ensemble de données d'origine afin de restaurer l'identification des données. L'exemple précédent porte sur des villes américaines (codes postaux) et des données personnelles (âges). Si nous supposons que le pirate informatique ne sait pas qui a participé à cette étude, l'ensemble de données de restauration de l'identification pourrait concerner tous les individus résidant aux États-Unis.

Maintenant que vous avez des quasi-identifiants et un ensemble de données de restauration de l'identification, vous pouvez calculer la valeur k-table : vos données répondent aux exigences de la valeur k de la k-table si toutes les combinaisons de valeurs pour les quasi-identifiants apparaissent au moins k fois dans l'ensemble de données de restauration de l'identification.

Selon cette définition et si la première ligne de notre base de données ne correspond vraisemblablement qu'à une personne aux États-Unis, l'exemple de l'ensemble de données ne répond pas aux exigences de la valeur de k-table de 2 ou plus. Pour obtenir une valeur k-table plus élevée, nous pouvons supprimer les valeurs associées aux âges comme dans l'exemple ci-dessous :

Code postal Âge
85535 **
60629 **

Comme mentionné précédemment, le code postal 85535 compte environ 20 habitants et le code postal 60629 plus de 100 000 habitants. Par conséquent, nous pouvons estimer que ce nouvel ensemble de données généralisé possède une valeur k-table d'environ 20.

Ressources relatives à la k-table

Pour en savoir plus sur k-table et ses relations avec k-anonymat, consultez l'article Protecting Privacy Using k-Anonymity rédigé par Khaled El Emam et Fida Kamal Dankar dans la revue Journal of the American Medical Informatics Association.

Pour en savoir plus sur le calcul des estimations de k-table avec la protection des données sensibles, consultez la section Calculer la propriété k-table pour un ensemble de données.

À propos de la δ-présence

La delta-présence (δ-présence) estime le risque que représente un pirate qui souhaite identifier si sa cible fait partie de l'ensemble de données. Cela est légèrement différent du risque de restauration de l'identification dans le sens où l'objectif n'est pas d'identifier quel enregistrement exact correspond à l'individu, mais seulement de savoir si l'individu fait partie de l'ensemble de données. L'utilisation de cette métrique est particulièrement appropriée si tous les individus de l'ensemble de données partagent un attribut sensible commun, par exemple un même diagnostic médical.

Comme les autres métriques de risque, la δ-présence nécessite que vous déterminiez les colonnes de votre base de données correspondant à des quasi-identifiants. Ce faisant, vous indiquez quelles données ont le plus de risque d'être exploitées par un pirate informatique pour déterminer les individus figurant dans l'ensemble de données. Comme pour k-table, le calcul de δ-présence nécessite un ensemble de données d'attaque : un tableau plus grand avec lequel comparer les lignes de l'ensemble de données d'origine.

Prenons comme exemple le petit ensemble de données suivant. Cet exemple de données fait partie d'une base de données hypothétique plus importante de personnes atteintes d'une maladie génétique donnée.

Code postal Âge
85942 72
85942 72
62083 53

Aux États-Unis, le code postal 85942 compte environ 2 personnes âgées de 72 ans et le code postal 62083, environ 5 personnes âgées de 53 ans. Il n'est pas tout à fait possible de restaurer l'identification sur les deux premiers enregistrements, car ils possèdent le même quasi-identifiant. Cependant, comme il n'y a que deux personnes qui partagent ces quasi-identifiants dans la population globale, un pirate informatique peut en déduire que les deux souffrent d'une maladie génétique. La δ-présence quantifie ce risque particulier en calculant le ratio de personnes possédant certains quasi-identifiants dans l'ensemble de données.

La δ-présence, comme les autres métriques de risque, nécessite que vous déterminiez les colonnes de votre base de données correspondant à des quasi-identifiants. Comme pour l'estimation de la k-table, les API d'analyse des risques de la protection des données sensibles simulent un ensemble de données de population globale approchant celui qu'un pirate informatique pourrait utiliser pour déterminer qui figure dans cet ensemble. L'exemple précédent porte sur des villes américaines (codes postaux) et des données personnelles (âges). Si nous supposons que le pirate informatique ne sait pas qui souffre d'une maladie génétique, cet ensemble de données de la population pourrait concerner tous les individus résidant aux États-Unis.

Maintenant que vous avez des quasi-identifiants et un ensemble de données de restauration de l'identification, vous pouvez calculer la valeur de la δ-présence : vos données répondent aux exigences de la valeur δ de la δ-présence si toutes les combinaisons de valeurs pour les quasi-identifiants apparaissent au maximum δ * k fois dans votre ensemble de données, où k est le nombre total de personnes possédant ces valeurs de quasi-identifiants dans l'ensemble de données de la population. Contrairement à k dans k-anonymat ou k-table, la valeur δ dans δ-présence est un nombre réel compris entre 0 et 1.

Étant donné cette définition et le fait que les deux personnes de 72 ans associées au code postal 85942 (dans la population générale) figurent également dans notre base de données, cet ensemble de données ne satisfait pas la δ-présence pour tout δ strictement inférieur à 1. Pour obtenir une valeur de δ-présence inférieure, nous pourrions supprimer la valeur de la colonne "Âge" pour les deux premières lignes :

Code postal Âge
85942 **
85942 **
62083 53

Désormais, puisqu'il y a 80 personnes recensées pour le code postal 85942, la valeur δ pour les deux premiers enregistrements est d'environ 2/80 = 2,5 % ; tandis que la valeur δ pour le troisième enregistrement est d'environ 1/5 = 20 %. Par conséquent, nous pouvons estimer que ce nouvel ensemble de données généralisé a une valeur de δ-présence d'environ 20 %.

Ressources relatives à la δ-présence

Pour en savoir plus sur l'estimation de la présence δ-présence en fonction de données statistiques, consultez l'article δ-Presence Without Complete World Knowledge rédigé par Mehmet Ercan Nergiz et Chris Clifton, tiré des rapports techniques du Département d'informatique de l'Université Purdue.

Pour en savoir plus sur le calcul des estimations de la Σ-présence avec la protection des données sensibles, consultez la section Calculer la {}-présence pour un ensemble de données.