Mesurer le risque de restauration de l'identification et de divulgation

L'analyse des risques de restauration de l'identification, ou simplement l'analyse des risques, est le processus d'analyse des données sensibles qui permet de trouver les propriétés présentant un risque accru d'identification des sujets. Vous pouvez employer des méthodes d'analyse des risques avant la suppression de l'identification pour vous aider à déterminer une stratégie efficace, ou bien après cette étape pour surveiller les modifications ou les anomalies.

La protection des données sensibles peut calculer quatre métriques de risque de réidentification: k-anonymat, l-diversité, k-table et δ-présence. Si vous n'êtes pas familier avec l'analyse des risques ou l'une de ces métriques, consultez la section sur les concepts d'analyse des risques avant de continuer.

Cette section explique comment utiliser la protection des données sensibles pour analyser les risques associés aux données structurées à l'aide de l'une de ces métriques, ainsi que d'autres sujets associés.

Calculer le risque de restauration de l'identification

La protection des données sensibles peut analyser vos données structurées stockées dans des tables BigQuery et calculer les métriques de risque de restauration de l'identification suivantes. Cliquez sur le lien de la métrique à calculer pour en savoir plus.

Métrique Description
k-anonymat Propriété d'ensemble de données qui indique la possibilité de restaurer l'identification de ses enregistrements. Un ensemble de données est considéré comme k-anonyme si les quasi-identifiants de chaque individu dans l'ensemble de données sont identiques à au moins k - 1 autres individus figurant également dans l'ensemble de données.
l-diversité extension de la propriété k-anonymat qui mesure de surcroît la diversité des valeurs sensibles pour chaque colonne où elles apparaissent. Un ensemble de données possède une propriété l-diversité si, pour chaque ensemble de lignes possédant le même quasi-identifiant, il y a au moins l valeurs distinctes pour chaque attribut sensible.
k-table Métrique permettant de calculer le risque de restauration de l'identification en comparant un ensemble de données anonymisé sur des sujets avec un ensemble de données de restauration de l'identification (ou d'attaque) plus grand.
δ-présence Estime la probabilité qu'un individu d'une population plus importante appartienne à l'ensemble de données. Elle est utilisée lorsque l'appartenance à l'ensemble de données est elle-même une information sensible.

Calculer d'autres métriques

La protection des données sensibles peut également calculer des statistiques numériques et catégoriques pour les données stockées dans des tables BigQuery en utilisant la même ressource DlpJob que les API d'analyse des risques.

Métrique Description
Métriques numériques Détermine les valeurs minimales et maximales, ainsi que les quantiles d'une colonne BigQuery individuelle.
Métriques numériques catégorielles Calcule des métriques numériques catégoriques pour les différents buckets d'histogrammes d'une colonne BigQuery.

Pour en savoir plus, consultez la page Calculer des métriques numériques et catégoriques.

Visualiser le risque de restauration de l'identification

Vous pouvez visualiser les métriques de risque calculées par la protection des données sensibles directement dans la console Google Cloud à l'aide de la protection des données sensibles (k-anonymat ou l-diversité), ou d'autres produits Google Cloud.

Produit Description
Looker Studio Après avoir calculé les valeurs de k-anonymat pour un ensemble de données à l'aide de la protection des données sensibles, vous pouvez visualiser les résultats dans Looker Studio. Ainsi, vous serez également en mesure de mieux comprendre les risques de restauration de l'identification et d'évaluer les compromis que vous pouvez être amené à faire au niveau de l'utilité des données si vous les masquez ou en supprimez l'identification.