衡量重标识和披露风险

重标识风险分析(简称“风险分析”)是分析敏感数据的过程,旨在查找哪些属性可能会增加主体被识别的风险。您可以在去标识化之前使用风险分析方法来帮助确定有效的去标识化策略,或者在去标识化之后监控任何变化或离群值。

Cloud Data Loss Prevention (DLP) 可以计算四个重标识风险指标:k-匿名性、l-多样性、k-图和 δ-存在性。如果您对风险分析或这些指标不熟悉,请在继续阅读之前先查看风险分析概念主题

本部分概述了如何通过 Cloud DLP 使用以下任何指标以及其他相关主题对结构化数据进行风险分析。

计算重标识风险

Cloud DLP 可以分析存储在 BigQuery 表格中的结构化数据,并计算以下重标识风险指标。如需了解详情,请点击您要计算的指标的链接。

指标 说明
k-匿名性 数据集的一个属性,指示其记录的可重标识性。如果数据集中每个人的准标识符与该数据集中至少 k - 1 个其他人也相同,则该数据集具有 k-匿名性。
l-多样性 该方法是对 k-匿名性属性的扩展,还可针对出现敏感值的每一列测量敏感值的多样性。如果对于具有相同准标识符的每组行,每个敏感属性至少有 l 个不同的值,则数据集具有 l-多样性。
k-图 通过将主体的给定去标识化数据集与更大的重标识化(或“攻击”)数据集进行比较来计算可重标识性风险。
δ-存在性 估算较大群体中指定用户出现在数据集中的概率。如果数据集中的成员资格本身就是敏感信息,请使用此方法。

计算其他统计信息

Cloud DLP 还可借助与风险分析 API 相同的 DlpJob 资源,计算 BigQuery 表格中所存储数据的数值统计信息和分类统计信息。

指标 说明
数值统计信息 确定单个 BigQuery 列的最小值、最大值和分位数值。
分类数值统计信息 计算 BigQuery 列中各直方图分区的分类数值统计信息。

如需了解详情,请参阅计算数值统计信息和分类统计信息

直观呈现重标识风险

使用 Cloud DLP(k-匿名性I-多样性)或其他 Google Cloud 产品,您可以直观呈现 Cloud DLP 直接在 Cloud Console 中计算的风险指标。

产品 说明
数据洞察 使用 Cloud DLP 计算数据集的 k-匿名性值后,您可以通过 Google Data Studio 直观呈现结果。这样,您也可以更好地了解重标识风险,同时有助于评估您在工具中对数据进行遮盖和去标识化时可能采用的折中。