重标识风险分析(简称“风险分析”)是分析敏感数据的过程,旨在查找哪些属性可能会增加主体被识别的风险。您可以在去标识化之前使用风险分析方法来帮助确定有效的去标识化策略,或者在去标识化之后监控任何变化或离群值。
敏感数据保护功能可以计算四个重标识风险指标:k-匿名性、l-多样性、k-图和 δ-存在性。如果您对风险分析或这些指标不熟悉,请在继续阅读之前先查看风险分析概念主题。
本部分概述了如何使用 Sensitive Data Protection 防范风险 使用这些指标分析结构化数据,以及其他相关指标, 主题。
计算重标识风险
Sensitive Data Protection 可以分析存储在 Google Cloud 的结构化数据 BigQuery 表并计算以下重标识风险 指标。如需了解详情,请点击您要计算的指标的链接。
指标 | 说明 |
---|---|
k-匿名性 | 数据集的一个属性,指示其记录的可重标识性。如果数据集中每个人的准标识符与该数据集中至少 k - 1 个其他人也相同,则该数据集具有 k-匿名性。 |
l-多样性 | 该方法是对 k-匿名性属性的扩展,还可针对出现敏感值的每一列测量敏感值的多样性。如果对于具有相同准标识符的每组行,每个敏感属性至少有 l 个不同的值,则数据集具有 l-多样性。 |
k-图 | 通过将主体的给定去标识化数据集与更大的重标识化(或“攻击”)数据集进行比较来计算可重标识性风险。 |
δ-存在性 | 估算较大群体中指定用户出现在数据集中的概率。如果数据集中的成员资格本身就是敏感信息,请使用此方法。 |
计算其他统计信息
敏感数据保护功能还可借助与风险分析 API 相同的 DlpJob
资源,计算 BigQuery 表格中所存储数据的数值统计信息和分类统计信息。
指标 | 说明 |
---|---|
数值统计信息 | 确定单个 BigQuery 列的最小值、最大值和分位数值。 |
分类数值统计信息 | 计算 BigQuery 列中各直方图分区的分类数值统计信息。 |
如需了解详情,请参阅计算数值统计信息和分类统计信息。
直观呈现重标识风险
使用敏感数据保护(k-匿名性或 l-多样性)或其他 Google Cloud 产品,您可以直观呈现敏感数据保护直接在 Google Cloud 控制台中计算的风险指标。
产品 | 说明 |
---|---|
Looker Studio | 使用 Sensitive Data Protection 计算数据集的 -匿名性值后,您可以在 Looker Studio 中直观呈现结果。这样一来,您还将能够更好地了解重标识风险,并帮助评估您在工具中对数据进行隐去或去标识化时可能做出的权衡取舍。 |