衡量重标识和披露风险

重标识风险分析(简称“风险分析”)是分析敏感数据的过程,旨在查找哪些属性可能会增加主体被识别的风险。您可以在去标识化之前使用风险分析方法来帮助确定有效的去标识化策略,或者在去标识化之后监控任何变化或离群值。

敏感数据保护可以计算四个重标识风险指标:k-匿名性、l-多样性、k-map 和 slice-presence。如果您对风险分析或这些指标不熟悉,请在继续阅读之前先查看风险分析概念主题

本部分简要介绍了如何使用敏感数据保护针对上述任意指标对结构化数据进行风险分析,以及其他相关主题。

计算重标识风险

敏感数据保护可以分析存储在 BigQuery 表中的结构化数据,并计算以下重标识风险指标。如需了解详情,请点击您要计算的指标的链接。

指标 说明
k-匿名性 数据集的一个属性,指示其记录的可重标识性。如果数据集中每个人的准标识符与该数据集中至少 k - 1 个其他人也相同,则该数据集具有 k-匿名性。
l-多样性 该方法是对 k-匿名性属性的扩展,还可针对出现敏感值的每一列测量敏感值的多样性。如果对于具有相同准标识符的每组行,每个敏感属性至少有 l 个不同的值,则数据集具有 l-多样性。
k-图 通过将主体的给定去标识化数据集与更大的重标识化(或“攻击”)数据集进行比较来计算可重标识性风险。
δ-存在性 估算较大群体中指定用户出现在数据集中的概率。如果数据集中的成员资格本身就是敏感信息,请使用此方法。

计算其他统计信息

敏感数据保护还可以使用风险分析 API 所用的同一 DlpJob 资源,为 BigQuery 表中存储的数据计算数值统计信息和分类统计信息。

指标 说明
数值统计信息 确定单个 BigQuery 列的最小值、最大值和分位数值。
分类数值统计信息 计算 BigQuery 列中各直方图分区的分类数值统计信息。

如需了解详情,请参阅计算数值统计信息和分类统计信息

直观呈现重标识风险

您可以使用敏感数据保护(k-匿名性l-多样性)或使用其他 Google Cloud 产品,在 Google Cloud 控制台中直观呈现敏感数据保护直接计算的风险指标。

Product 说明
Looker Studio 使用敏感数据保护计算数据集的 k-匿名性值后,您可以在 Looker 数据洞察中直观呈现结果。这样,您也可以更好地了解重标识风险,同时有助于评估您在工具中对数据进行遮盖和去标识化时可能采用的折中。