BigQuery 数据的数据剖析文件

本页面介绍了数据剖析服务,以及如何使用该服务来确定组织中的敏感数据和高风险数据所在的位置。

概览

借助 Cloud Data Loss Prevention (DLP) 的数据剖析服务,您可以通过识别敏感和高风险数据所在位置来保护整个组织中的数据。当您启用数据剖析时,Cloud DLP 会自动扫描整个组织、单个文件夹和项目中的所有 BigQuery 表和列。然后,您可以在表、列和项目级创建数据剖析文件。

数据剖析文件是 Cloud DLP 通过扫描特定资源而收集的一组指标。这些指标包括预测的 infoType、每列中值的唯一性、评估的数据风险等级和敏感程度以及有关表的元数据。使用这些数据洞见来就如何保护、共享和使用您的数据做出明智的决策。

只要数据分析器配置处于活跃状态,Cloud DLP 就会自动扫描您添加和修改的表,并为这些表生成新的和更新后的数据剖析文件。

列数据剖析文件的屏幕截图

如需查看每个数据剖析文件中包含的指标列表,请参阅指标参考文档

创建数据剖析文件

如需开始生成数据分析文件,您需要创建扫描配置(也称为数据分析文件配置)。此扫描配置用于设置要扫描的资源(组织、文件夹或项目)。该资源中的所有 BigQuery 数据集和表都在数据剖析的范围内。

创建扫描配置时,您还需要设置要使用的检查模板。您可以在检查模板中指定 Cloud DLP 必须扫描的敏感数据类型。

Cloud DLP 创建数据剖析文件后,会根据您的扫描配置和检查模板分析 BigQuery 表和列。数据剖析文件是该时间点的分析、数据洞见和指标的快照。

使用数据剖析文件

使用数据剖析文件的工作流程如下:

  1. 申请数据分析器访问权限
  2. 确认您具有所需的用户角色
  3. 创建扫描配置
  4. 仅限组织或文件夹扫描:向服务代理授予剖析访问权限
  5. 查看数据剖析文件
  6. 修复发现结果

申请数据分析器访问权限

填写注册表单以申请使用数据分析器功能。

申请访问权限

注册表单会在新标签页中打开。

在您提交申请表后,Cloud DLP 团队将审核您的申请,以确保您符合访问条件。我们将通过电子邮件回复您的申请。

配置和查看数据剖析文件所需的角色

以下各部分列出了所需的用户角色(根据其用途进行分类)。您可以根据组织的设置方式,让不同人员执行不同的任务。例如,配置数据剖析文件的人员可能与定期监控数据剖析文件的人员不同。

在组织或文件夹级层使用数据剖析文件所需的角色

这些角色可让您在组织或文件夹级层配置和查看数据剖析文件。

确保在组织级层向适当的人员授予这些角色。或者,您的 Google Cloud 管理员可以创建自定义角色,使他们仅具有相关权限。

用途 预定义角色 相关权限
配置和查看数据剖析文件 DLP Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Project Creator (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
授予性能剖析访问权限 下列其中一项:
  • Organization Administrator (roles/resourcemanager.organizationAdmin)
  • Security Admin (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
查看数据剖析文件(只读) DLP Data Profiles Reader (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP Reader (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

在项目级层使用数据剖析文件所需的角色

这些角色使您可以在项目级层配置和查看数据剖析文件。

确保在项目级层向这些人员授予这些角色。或者,您的 Google Cloud 管理员可以创建自定义角色,使他们仅具有相关权限。

用途 预定义角色 相关权限
配置和查看数据剖析文件 DLP Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
查看数据剖析文件(只读) DLP Data Profiles Reader (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP Reader (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

扫描配置

扫描配置数据分析文件配置指定要扫描的资源(组织、文件夹或项目)、要使用的检查模板,以及如何处理结果。它还包含管理方面的详细信息,例如将扫描关联到的服务代理容器以及要使用的结算帐号。

您可以为组织创建扫描配置,也可以为特定文件夹创建扫描配置。如果两个或更多活跃扫描配置在其范围内具有相同的项目,则 Cloud DLP 会确定哪个扫描配置可以为该项目生成分析文件。

您还可以在项目级层创建扫描配置。此类扫描配置始终可对目标项目进行数据分析,并且不会与父文件夹或组织级层的其他配置发生冲突。

首次创建扫描配置时,您可以指定其在 Cloud DLP 中的存储位置。您创建的所有后续扫描配置都存储在这个区域中。

例如,如果您为文件夹 A 创建了一个扫描配置并将其存储在 us-west1 区域中,则您后续为任何其他资源创建的所有扫描配置也都会存储在该区域中。

检查模板

检查模板指定 Cloud DLP 在扫描数据时要查找的信息类型(或 infoType)。在这里,您可以结合使用内置信息类型和可选的自定义信息类型

您还可以提供可能性级别,以缩小 Cloud DLP 认为匹配的范围。您可以添加规则集以排除不需要的发现结果或添加其他发现结果。

如果您更改扫描配置使用的检查模板,所做的更改仅会应用于将来的扫描。任何现有的数据剖析文件都不会被覆盖。例如,如果您修改模板以添加信息类型,则更改只会影响尚未扫描的表。您的操作不会重新扫描所有现有的表。

检查模板必须与要剖析的数据位于同一区域。如果您的数据位于多个区域,请使用存储在 global 区域的检查模板。如需了解详情,请参阅数据驻留注意事项

检查模板是 Cloud DLP 平台的核心组件。数据剖析文件使用您可以在所有 Cloud DLP 服务中使用的检查模板。如需详细了解检查模板,请参阅模板

服务代理容器

为组织或文件夹创建扫描配置时,Cloud DLP 会要求您提供服务代理容器。服务代理容器是包含服务代理的项目。您需要服务代理来向 Cloud DLP 和其他 API 进行身份验证。您的服务代理必须具有访问和剖析数据所需的所有权限。

设置服务代理容器时,您可以选择现有项目。如果您选择的项目包含服务代理,Cloud DLP 会向该服务代理授予必需的 IAM 权限。如果项目没有服务代理,Cloud DLP 会创建一个服务代理并自动向其授予数据剖析访问权限。

或者,您可以选择让 Cloud DLP 自动创建服务代理容器和服务代理。Cloud DLP 会自动向服务代理授予数据剖析访问权限。

在这两种情况下,如果 Cloud DLP 未能向服务代理授予数据剖析访问权限,当您查看扫描配置详细信息时,Cloud DLP 会显示错误

对于项目级层扫描配置,您不需要服务代理容器。您进行数据分析的项目会充当服务代理容器。

组织或文件夹级层的数据剖析访问权限

当您在组织或文件夹级层创建扫描配置时,Cloud DLP 会尝试自动向您的服务代理授予数据剖析访问权限。但是,如果您没有授予 IAM 角色的权限,则 Cloud DLP 无法代表您执行此操作。您的组织中具有这些权限的人员(例如 Google Cloud 管理员)必须向您的服务代理授予数据剖析访问权限

数据剖析文件的创建频率

为特定资源创建扫描配置后,Cloud DLP 会执行初始扫描,并剖析该资源中的所有表。初始扫描完成后,它会持续监控您的 BigQuery 表,查找您引入的任何添加内容或更改内容。您添加的任何新表在添加后不久都会进行剖析。您修改的所有表都将在下一个日历月进行剖析。系统不会再次剖析未更改的表。

根据设计,Cloud DLP 不会重新剖析自从上次剖析以来未发生更改的表。如果您希望 Cloud DLP 重新剖析现有的表,可以向 Cloud DLP 团队发送请求

如需查看示例场景,请参阅数据剖析价格示例

数据剖析文件的保留期限

Cloud DLP 会将最新版本的数据剖析文件保留 13 个月。当 Cloud DLP 重新分析更新后的表时,它会将该表的现有数据剖析文件替换为新的数据剖析文件。

以下面几种情况为例:

  • 在 1 月 1 日,Cloud DLP 会分析表 A。表 A 有一年多没有变化,因此不再进行分析。在这种情况下,Cloud DLP 会将表 A 的数据剖析文件保留 13 个月,然后才删除它们。

  • 在 1 月 1 日,Cloud DLP 会分析表 A。一个月内,您组织中的某个人更新了该表。由于此更改,下个月,Cloud DLP 会自动重新剖析表 A。新生成的数据剖析文件会覆盖 1 月创建的剖析文件。

如需了解 Cloud DLP 如何针对剖析新表和修改后的表进行收费,请参阅数据剖析价格

如果您想要无限期保留数据剖析文件或保留其更改记录,请考虑在创建扫描配置时将数据剖析文件保存到 BigQuery。您需要选择将要保存剖析文件的 BigQuery 数据集,并控制该数据集的表过期时间政策。

替换扫描配置

您最多可以为每个组织、文件夹和项目创建一个扫描配置。

如果两个或多个活跃扫描配置范围包含同一项目,则以下规则适用:

  • 在组织级层和文件夹级层扫描配置中,最接近项目的配置将能够为该项目生成数据分析文件;即使该项目的项目级层扫描配置也存在,也是如此。
  • Cloud DLP 会独立于组织级层和文件夹级层配置,对项目级层扫描配置进行处理。您在项目级层创建的扫描配置不会覆盖您为父文件夹或组织创建的扫描配置。

请参阅以下示例,其中包含三个活跃扫描配置:

含有应用于组织和文件夹的扫描配置的资源层次结构图

在这里,扫描配置 1 应用于整个组织、扫描配置 2 应用于 Team B 文件夹、扫描配置 3 则应用于 Production 项目。在此示例中:

  • Cloud DLP 会根据扫描配置 1 对非 Team B 文件夹下的项目中的所有表进行数据分析。
  • Cloud DLP 会根据扫描配置 2Team B 文件夹下的项目中的所有表进行数据分析。这包括 Production 项目中的表。
  • Cloud DLP 会根据扫描配置 3Production 项目中的所有表进行数据分析。

在此示例中,Cloud DLP 实际会为 Production 项目生成两组数据分析文件,以下每种扫描配置对应一组数据分析文件:

  • 扫描配置 2
  • 扫描配置 3

但是,即使同一项目有两组数据分析文件,您也不会在信息中心中同时看到它们。您只能看到当前所查看范围和区域中生成的数据分析文件。

如需详细了解 Google Cloud 的资源层次结构,请参阅资源层次结构

数据剖析文件快照

每个数据剖析文件都包含扫描配置的快照以及用于生成此配置的检查模板。这意味着即使您以后更改扫描配置或检查模板,也始终可以检查用于生成特定数据剖析文件的设置。

数据驻留注意事项

Cloud DLP 旨在支持数据驻留。如果您必须遵守数据驻留要求,请考虑以下几点:

检查区域

Cloud DLP 会检查存储数据的同一区域中的数据。也就是说,您的 BigQuery 数据不会离开其当前区域。

此外,检查模板只能用于剖析与该模板位于同一区域的数据。例如,如果您将数据分析器配置为使用存储在 us-west1 区域的检查模板,则 Cloud DLP 只能剖析该区域中的数据。对于该区域以外的所有表,剖析将失败并报错。

如果要剖析存储在多个区域中的数据,请使用存储在 global 区域中的检查模板。

下表提供了示例场景:

情况 支持
使用 us 区域中的检查模板扫描 us 区域中的数据。 支持
使用 us 区域中的检查模板扫描 global 区域中的数据。 不支持
使用 global 区域中的检查模板扫描 us 区域中的数据。 支持
使用 us-east1 区域中的检查模板扫描 us 区域中的数据。 不支持
使用 us 区域中的检查模板扫描 us-east1 区域中的数据。 不支持
使用 asia 区域中的检查模板扫描 us 区域中的数据。 不支持

数据剖析文件配置

Cloud DLP 创建数据剖析文件后,它会截取您的扫描配置和检查模板的快照,并将其存储在每个表数据剖析文件中。如果您将数据分析器配置为使用 global 区域中的检查模板,则 Cloud DLP 会将该模板复制到包含要剖析的数据的任何区域。同样,它会将扫描配置复制到这些区域。

假设此示例:项目 A 包含表 1。表 1 位于 us-west1 区域;扫描配置位于 us-west2 区域;检查模板位于 global 区域。

当 Cloud DLP 扫描项目 A 时,它会为表 1 创建数据剖析文件并将其存储在 us-west1 区域。表 1 的表数据剖析文件包含扫描配置的副本以及剖析操作中使用的检查模板。

如果您不希望将您的检查模板复制到其他区域,请不要将 Cloud DLP 配置为扫描这些区域中的数据。

数据剖析文件的区域存储

检查数据后,Cloud DLP 会生成数据剖析文件。它将每个数据剖析文件存储在存储其目标数据的同一区域中(这也是处理检查的位置)。如需在信息中心中查看数据剖析文件,您必须先选择它们所在的区域。如果您在多个区域中有数据,则必须切换区域才能查看每组剖析文件。

不支持的区域

如果您的表位于 Cloud DLP 不支持的区域,则它将跳过这些表,并在您查看数据剖析文件时显示错误。

多区域

Cloud DLP 将多区域视为一个区域,而不是区域的集合。例如,就数据驻留而言,us 多区域和 us-west1 区域被视为两个单独的区域。

法规遵从

如需了解 Cloud DLP 如何处理您的数据以及如何帮助您满足合规性要求,请参阅数据安全

获得帮助和支持

对于预览版期间的反馈和支持查询,请发送电子邮件至 cloud-dlp-feedback@google.com

后续步骤