计算数据集的 δ-存在性

Delta-存在性(δ-存在性)是用于量化个体属于分析数据集的概率的指标。k-图一样,您可以使用 Cloud DLP 估算 δ-存在性值。Cloud DLP 使用统计模型来估算攻击数据集

δ-存在性与其他明确知道攻击数据集的风险分析方法不同。根据数据类型,Cloud DLP 会使用公开提供的数据集(例如美国人口普查数据集)或自定义统计模型(例如,您指定的一个或多个 BigQuery 表格),或者根据输入数据集中值的分布进行推断。

本主题演示了如何使用 Cloud Data Loss Prevention (DLP) 计算数据集的 δ-存在性值。如需从整体上详细了解 δ-存在性或风险分析,请参阅风险分析概念主题,然后再继续。

准备工作

在继续操作之前,请确保您已完成以下步骤:

  1. 登录您的 Google 帐号。
  2. 在 Google Cloud Console 的“项目选择器”页面上,选择或创建一个 Google Cloud 项目。
  3. 转到项目选择器
  4. 确保您的 Google Cloud 项目已启用结算功能。 了解如何确认您的项目已启用结算功能
  5. 启用 Cloud DLP。
  6. 启用 Cloud DLP

  7. 选择要分析的 BigQuery 数据集。Cloud DLP 通过扫描 BigQuery 表格来计算 δ-存在性指标
  8. 确定您要用于攻击数据集建模的数据集类型。如需了解详情,请参阅 DeltaPresenceEstimationConfig 对象的参考页面以及风险分析术语和技术

计算 δ-存在性指标

如需使用 Cloud DLP 计算 δ-存在性估算值,,请向以下网址发送一个请求,其中 PROJECT_ID 表示项目标识符

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

该请求包含一个由以下项组成的 RiskAnalysisJobConfig 对象:

  • PrivacyMetric 对象。您可以在此处指定包含以下内容的 DeltaPresenceEstimationConfig 对象以表明您要计算 δ-存在性:

    • quasiIds[]:必填。被视为要扫描的准标识符的字段(QuasiId 对象),用于计算 δ-存在性。任何两列的标记都不能相同。这些标记可为下列任一项:

      • infoType:这会使 Cloud DLP 使用相关的公共数据集作为人口统计模型,包括美国邮政编码、区域代码、年龄和性别。
      • 自定义 infoType:自定义标记,用于指示包含有关此列的可能值的统计信息的辅助表(AuxiliaryTable 对象)。
      • inferred 标记:如果未指示语义标记,请指定 inferred。Cloud DLP 会根据输入数据中值的分布推断统计模型。
    • regionCode:Cloud DLP 要在统计建模中使用的 ISO 3166-1 alpha-2 区域代码。如果未使用区域专属 infoType(如美国邮政编码)或区域代码标记列,则此值是必需的。

    • auxiliaryTables[]:用于分析的辅助表(StatisticalTable 对象)。用于标记准标识符列的每个自定义标记(来自 quasiIds[])都必须恰好出现在一个辅助表的一列中。

  • BigQueryTable 对象。通过包括以下所有项指定要扫描的 BigQuery 表格:

    • projectId:表格所属项目的 ID。
    • datasetId:表格的数据集 ID。
    • tableId:表格的名称。
  • 由一个或多个 Action 对象组成的对象集,这些对象表示在作业完成时要按给定顺序运行的操作。每个 Action 对象都可以包含以下操作之一:

查看 δ-存在性作业结果

如需使用 REST API 检索 δ-存在性风险分析作业,请将以下 GET 请求发送到 projects.dlpJobs 资源。将 PROJECT_ID 替换为您的项目 ID,并将 JOB_ID 替换为您要获取其结果的作业的标识符。作业 ID 在启动作业时返回,也可通过列出所有作业来检索。

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

该请求会返回包含作业实例的 JSON 对象。分析的结果位于 AnalyzeDataSourceRiskDetails 对象的 "riskDetails" 键中。如需了解详情,请参阅 DlpJob 资源的 API 参考文档。

后续步骤

  • 了解如何计算数据集的 k-匿名性值。
  • 了解如何计算数据集的 l-多样性
  • 了解如何计算数据集的 k-图值。