数据剖析文件

本页介绍了敏感数据发现服务。此服务可帮助您确定组织中的敏感数据和高风险数据所在的位置。

概览

借助发现服务,您可以通过识别敏感和高风险数据所在位置来保护整个组织中的数据。当您创建发现扫描配置时,敏感数据保护会扫描您的资源,以确定要分析的范围内的数据。然后,它生成 数据分析只要发现配置有效, 敏感数据保护自动 配置文件数据。 您可以生成整个组织、各个文件夹和各个项目的数据分析文件。

每个数据剖析文件都是发现服务通过扫描受支持的资源收集的一组数据洞见和元数据。数据分析包括数据的预测信息类型计算出的数据风险和敏感度级别。使用这些数据洞见来就如何保护、共享和使用您的数据做出明智的决策。

数据分析文件的详细程度各不相同。例如,当您分析 BigQuery 数据时,系统会在项目、表和列级别生成分析文件。

下图显示了列级数据分析文件列表。点击图片即可将其放大。

列数据剖析文件的屏幕截图

如需查看每个数据分析文件中包含的数据分析和元数据列表,请参阅 指标参考

如需详细了解 Google Cloud 资源层次结构,请参阅 资源层次结构

数据分析生成

如需开始生成数据分析文件,您需要创建发现扫描配置(也称为数据分析文件配置)。在此扫描配置中,您可以设置发现操作的范围以及要分析的数据类型。在扫描配置中,您可以设置过滤条件,以指定要分析或跳过的数据子集。您还可以设置性能分析时间表。

创建扫描配置时,您还需要设置要使用的检查模板。检查模板为 这种类型用于指定敏感数据的类型(也称为 infoTypes), Sensitive Data Protection 必须扫描。

Sensitive Data Protection 创建数据剖析文件后,会根据您的扫描配置和检查模板分析您的数据。

Sensitive Data Protection 重新分析数据,如数据分析频率 生成的内容。您可以通过创建时间表,在扫描配置中自定义分析频率。 如需强制发现服务重新分析您的数据,请参阅强制重新分析 操作

支持的资源

本部分介绍了 Discovery 支持的资源。

适用于 BigQuery 和 BigLake 的发现功能

在分析 BigQuery 数据时, 数据分析文件在项目级、表级和列级生成。对 BigQuery 表进行性能分析后,您可以通过执行深层检查来进一步调查发现的问题。

Sensitive Data Protection 会分析 BigQuery Storage Read API,其中包括 以下:

  • 标准 BigQuery 表
  • 表快照
  • 存储在 Cloud Storage 中的 BigLake 表

不支持以下各项:

如需了解如何分析 BigQuery 数据,请参阅以下内容:

如需详细了解 BigQuery,请参阅 BigQuery 文档

Cloud SQL 发现服务

当您分析 Cloud SQL 数据时,系统会在以下位置生成数据分析文件: 项目、表和列级别的数据。在开始发现之前,您需要为要分析的每个 Cloud SQL 实例提供连接详细信息。

如需了解如何分析 Cloud SQL 数据,请参阅以下内容:

如需详细了解 Cloud SQL,请参阅 Cloud SQL 文档

Cloud Storage 的发现功能

分析 Cloud Storage 数据时,系统会在存储桶一级生成数据分析文件。Sensitive Data Protection 将检测到的文件分组为 file 集群 并提供每个集群的摘要信息

如需了解如何分析 Cloud Storage 数据,请参阅以下内容:

如需详细了解 Cloud Storage,请参阅 Cloud Storage 文档

Discovery for Amazon S3

分析 S3 数据时,系统会在存储桶一级生成数据分析文件。Sensitive Data Protection 会将检测到的文件划分为文件集群,并为每个集群提供摘要。

如需了解详情,请参阅 Amazon S3 的敏感数据发现 数据

Cloud Run 环境变量

发现服务可以检测是否存在 Secret Cloud Run 函数和 Cloud Run 服务修订版本环境变量 并将发现结果发送到 Security Command Center。系统不会生成任何数据分析文件。

如需了解详情,请参阅将环境变量中的 Secret 报告给 Security Command Center

配置和查看数据剖析文件所需的角色

以下各部分列出了所需的用户角色(根据其用途进行分类)。您可以根据组织的设置方式,让不同人员执行不同的任务。例如,配置数据剖析文件的人员可能与定期监控数据剖析文件的人员不同。

在组织或文件夹级层使用数据剖析文件所需的角色

这些角色可让您在组织或文件夹级层配置和查看数据剖析文件。

确保在组织级层向适当的人员授予这些角色。或者,您的 Google Cloud 管理员可以创建自定义角色,使他们仅具有相关权限。

用途 预定义角色 相关权限
创建发现扫描配置并查看数据分析文件 DLP Administrator (roles/dlp.admin)
  • dlp.columnDataProfiles.list
  • dlp.fileStoreProfiles.list
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobs.list
  • dlp.jobTriggers.create
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
创建一个用作服务代理容器的项目1 Project Creator (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
授予发现权限2 下列其中一项:
  • Organization Administrator (roles/resourcemanager.organizationAdmin)
  • Security Admin (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
查看数据分析文件(只读) DLP Data Profiles Reader (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.fileStoreProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP Reader (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

1 如果您没有“项目创建者”(roles/resourcemanager.projectCreator) 角色,仍然可以创建扫描配置,但您使用的服务代理容器必须是现有项目。

2 如果您没有“组织管理员”(roles/resourcemanager.organizationAdmin) 或“安全管理员”(roles/iam.securityAdmin) 角色,仍然可以创建扫描配置。创建扫描配置后,您组织中拥有以下任一角色的人员必须向服务代理授予发现权限

在项目级层使用数据剖析文件所需的角色

这些角色使您可以在项目级层配置和查看数据剖析文件。

确保在项目级层向这些人员授予这些角色。或者,您的 Google Cloud 管理员可以创建自定义角色,使他们仅具有相关权限。

用途 预定义角色 相关权限
配置和查看数据剖析文件 DLP Administrator (roles/dlp.admin)
  • dlp.columnDataProfiles.list
  • dlp.fileStoreProfiles.list
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobs.list
  • dlp.jobTriggers.create
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
查看数据分析文件(只读) DLP Data Profiles Reader (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.fileStoreProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP Reader (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

发现扫描配置

发现扫描配置(有时称为发现配置扫描配置)用于指定敏感数据保护应如何对您的数据进行分析。其中包括以下设置:

  • 发现操作的范围(组织、文件夹或项目)
  • 资源 到个人资料
  • 检查 模板 使用
  • 扫描频率
  • 应包含或排除的特定数据子集
  • 您希望敏感数据保护在发现敏感数据后执行的操作,例如,要将配置文件发布到哪些 Google Cloud 服务
  • 用于发现操作的服务代理

如需了解如何创建发现扫描配置,请参阅以下页面:

发现类型

发现服务支持以下类型的操作:

扫描配置作用域

您可以在以下级别创建扫描配置:

  • 组织
  • 文件夹
  • 项目
  • 单个数据资源(测试模式)

在组织级和文件夹级,如果两个或更多活跃扫描配置在其范围内具有相同的项目,则 Sensitive Data Protection 会确定哪个扫描配置可以为该项目生成分析文件。如需更多信息 请参阅覆盖扫描 配置

项目级扫描配置始终可对目标项目进行数据分析,并且不会与父文件夹或组织级层的其他配置发生冲突。

测试模式扫描配置旨在帮助您探索和测试单个数据资产的性能分析。

扫描配置位置

首次创建扫描配置时,您需要指定所需的位置 Sensitive Data Protection 开始存储。您创建的所有后续扫描配置都存储在这个区域中。

例如,如果您为文件夹 A 创建了一个扫描配置并将其存储在 us-west1 区域中,则您后续为任何其他资源创建的所有扫描配置也都会存储在该区域中。

将待分析数据的元数据复制到同一区域 作为您的扫描配置,但数据本身并不 移动或复制。如需了解详情,请参阅数据驻留注意事项

检查模板

检查模板指定敏感数据保护在扫描数据时要查找的信息类型(或 infoType)。在这里,您可以结合使用内置信息类型和可选的自定义信息类型

您还可以提供可能性级别, 缩小敏感数据保护功能认为匹配的范围。您可以添加规则集以排除不需要的发现结果或添加其他发现结果。

默认情况下,如果您更改了扫描配置 这些更改将仅应用于将来的扫描。您的操作不会导致对数据执行重新配置文件操作。

如果您希望检查模板更改触发对受影响数据的重新分析操作,请在扫描配置中添加或更新时间表,并开启在检查模板发生更改时重新分析数据的选项。有关 信息,请参阅数据分析文件的生成频率

您必须在每个要保留数据的区域都有一个检查模板 。如果您想针对多个区域使用单个模板,可以使用存储在 global 区域中的模板。如果组织政策阻止您创建 global 检查模板,您必须为每个区域设置专用检查模板。如需了解详情,请参阅数据驻留注意事项

检查模板是 Sensitive Data Protection 平台的核心组件。数据剖析文件使用您可以在所有 Sensitive Data Protection 服务中使用的检查模板。如需详细了解检查模板,请参阅模板

服务代理容器和服务代理

为组织或文件夹创建扫描配置时, 敏感数据保护 您需要提供服务代理容器。一个服务代理容器 是 Sensitive Data Protection 用于跟踪 与组织和文件夹级分析操作相关的已出账单费用。

服务代理容器包含一个服务代理,Sensitive Data Protection 会使用该代理代表您分析数据。您需要服务代理来向敏感数据保护和其他 API 进行身份验证。您的服务 代理必须具有访问和分析您的数据所需的全部权限。 服务代理的 ID 采用以下格式:

service-PROJECT_NUMBER@dlp-api.iam.gserviceaccount.com

其中,PROJECT_NUMBER 是服务的数字标识符 代理容器。

设置服务代理容器时,您可以选择现有项目。如果您选择的项目包含服务代理,敏感数据保护会向该服务代理授予必需的 IAM 权限。如果项目没有服务代理 敏感数据保护会创建一个,并自动授予数据分析权限 对该文件的权限。

或者,您也可以选择启用 Sensitive Data Protection 自动创建服务代理容器和服务代理。 敏感数据保护会自动向 服务代理。

在这两种情况下,如果敏感数据保护未能向服务代理授予数据剖析访问权限,当您查看扫描配置详细信息时,敏感数据保护会显示错误

对于项目级层扫描配置,您不需要服务代理容器。您正在分析的项目为服务代理提供服务 容器用途为了运行分析操作,Sensitive Data Protection 使用 自己的服务代理。

组织或文件夹级层的数据剖析访问权限

配置性能剖析时 在组织或文件夹级别,Sensitive Data Protection 会尝试自动 向服务代理授予数据分析访问权限。但如果没有 拥有授予 IAM 角色的权限(Sensitive Data Protection) 无法代表您执行此操作。您的组织中具有这些权限的人员(例如 Google Cloud 管理员)必须向您的服务代理授予数据分析访问权限

数据配置文件生成频率

为特定资源创建发现扫描配置后, 敏感数据保护服务会执行初始扫描,分析 扫描配置的范围

初始扫描完成后,Sensitive Data Protection 将持续监控 经过分析的资源在资源中添加的数据资产会在添加后不久自动进行性能分析。

默认的重新配置频率

默认重新分析频率因发现 type

  • BigQuery 分析:对于每个表,等待 30 天,然后 如果表的架构、表行或检查发生更改,则重新对表进行分析 模板。
  • Cloud SQL 分析:针对每个表,等待 30 天,然后重新分析 如果架构或检查发生更改,则检查表 模板。
  • Cloud Storage 性能剖析:对于每个存储桶,等待 30 天,然后 如果检查模板发生更改,请重新分析存储桶。
  • Amazon S3 性能分析:对于每个存储桶,请等待 30 天,然后如果检查模板发生更改,请重新分析该存储桶。

自定义重新分析频率

在扫描配置中,您可以通过以下方式自定义重新分析频率: 为数据的不同子集创建一个或多个时间表。

可用的重新分析频率如下:

  • 不重新分析:完成初始分析后,不重新分析 。
  • 每日重新分析:等待 24 小时后重新分析。
  • 每周重新分析:等待 7 天后重新分析。
  • 每月重新分析:等待 30 天再重新分析。

按计划重新配置

在扫描配置中,您可以指定是否应定期重新分析部分数据,无论这些数据是否发生了更改。您设置的频率指定了性能分析操作之间必须经过的时间。例如,如果您将频次设置为每周 敏感数据保护功能会在数据资产上次存储 7 天后对其进行分析 。

更新时重新配置

在扫描配置中,您可以指定可触发重新配置操作的事件。例如,检查模板更新就是此类事件。

选择这些活动后,您设置的时间表会指定最长时间 敏感数据保护会先等待更新累积,然后再进行累积 重新分析数据如果在您指定的时间段内没有发生任何适用更改(例如架构更改或检查模板更改),系统不会重新分析任何数据。当发生下一次适用更改时,系统会在下次有机会时重新分析受影响的数据,具体机会取决于各种因素(例如可用的机器容量或购买的订阅单元)。然后,敏感数据保护功能会开始等待更新再次积累到您设定的时间表。

例如,假设您的扫描配置设置为每月重新分析 架构更改。数据分析文件于第 0 天首次创建。无架构更改 因此不会在第 30 天发生数据,因此不会重新分析任何数据。在第 35 天,首次架构更改 。Sensitive Data Protection 下次需要重新分析更新后的数据 优化建议。然后,系统会再等待 30 天,以积累架构更新,然后再重新分析所有更新后的数据。

从重新分析开始,操作最长可能需要 24 小时才能完成 操作完成。如果延迟超过 24 小时,并且您处于订阅状态 请确认您是否在 月

如需查看示例场景,请参阅数据剖析价格示例

如需强制发现服务重新分析您的数据,请参阅强制重新分析 操作

性能分析

分析数据所需的时间因多种因素而异,包括但不限于:

  • 要分析的数据资产数量
  • 数据资产的大小
  • 对于表,
  • 对于表格,列中的数据类型

因此,Sensitive Data Protection 在过去的检查或性能分析任务中的表现不能说明它在未来的性能分析任务中的表现。

数据剖析文件的保留期限

敏感数据保护服务会保留最新版本的数据分析文件,用于 13 个月。当敏感数据保护重新分析数据资产时,系统会 将该数据资产的现有配置文件替换为新的配置文件。

在下面的示例场景中,假设默认性能剖析 频率

  • 1 月 1 日,Sensitive Data Protection 分析表 A。表 A 有一年多没有变化,因此不再进行分析。在此示例中 Sensitive Data Protection 会将表 A 的数据分析文件保留 13 个月 然后再删除它们

  • 在 1 月 1 日,Sensitive Data Protection 会分析表 A。在这一个月中, 您组织中有人更新了该表的架构。由于这一变更, 随后,敏感数据保护会自动对表 A 进行重新分析。 新生成的数据剖析文件会覆盖 1 月创建的剖析文件。

如需了解 Sensitive Data Protection 如何对分析数据收费,请参阅 发现服务价格

如果您想无限期保留数据分析文件,或 不妨将数据分析文件保存到 您 BigQuery 下列操作 配置性能剖析。您需要选择将要保存剖析文件的 BigQuery 数据集,并控制该数据集的表过期时间政策。

替换扫描配置

对于每个范围发现类型组合,您只能创建一个扫描配置。例如,您可以 为以下项目仅创建一个组织级扫描配置: BigQuery 数据分析和一次组织级扫描 Secret 发现的配置。同样,您只能创建一个 用于 BigQuery 数据分析和 一个项目级扫描配置,用于发现 Secret。

如果两个或多个活跃扫描配置范围包含同一项目和发现类型,则以下规则适用:

  • 在组织级层和文件夹级层扫描配置中,最接近项目的配置将能够为该项目运行发现功能;即使项目级扫描配置具有相同的项目级扫描配置, 发现类型也存在
  • 敏感数据保护会独立于组织级层和文件夹级层配置,对项目级层扫描配置进行处理。您在项目级层创建的扫描配置不会覆盖您为父文件夹或组织创建的扫描配置。

请参阅以下示例,其中包含三个活跃扫描配置。假设所有这些扫描配置都适用于 BigQuery 数据分析。

含有应用于组织、文件夹和项目的扫描配置的资源层次结构图

在这里,扫描配置 1 应用于整个组织、扫描配置 2 应用于 Team B 文件夹、扫描配置 3 则应用于 Production 项目。在此示例中:

  • Sensitive Data Protection 分析非 根据扫描配置 1 创建 Team B 文件夹。
  • 敏感数据保护功能会根据扫描配置 2Team B 文件夹中的项目(包括 Production 项目中的表)中的所有表进行数据分析。
  • Sensitive Data Protection 分析生产项目中的所有表 根据扫描配置 3

在此示例中,Sensitive Data Protection 会生成两组 Production 项目的配置文件 - 以下每次扫描都有一个配置文件集 配置:

  • 扫描配置 2
  • 扫描配置 3

但是,即使同一项目有两组数据分析文件,您也不会在信息中心中同时看到它们。您只会看到 是在资源(组织、文件夹或项目)中生成的,并且 您查看的区域

如需详细了解 Google Cloud 的资源层次结构,请参阅资源层次结构

数据剖析文件快照

每个数据剖析文件都包含扫描配置的快照以及用于生成此配置的检查模板。您可以使用此快照 请检查用于生成特定数据分析文件的设置。

Google Cloud 数据的数据驻留注意事项

本部分仅适用于 Google Cloud 资源的敏感数据发现功能。如需了解与 Amazon S3 数据相关的数据驻留地注意事项,请参阅Amazon S3 数据的敏感数据发现

敏感数据保护旨在支持数据驻留。如果您必须遵守数据驻留要求,请考虑以下几点:

区域检查模板

本部分仅适用于 Google Cloud 资源的敏感数据发现功能。如需了解与 Amazon S3 数据相关的数据驻留地注意事项,请参阅Amazon S3 数据的敏感数据发现

Sensitive Data Protection 会在存储数据的同一区域中处理数据。也就是说,您的数据不会离开其当前区域。

此外,检查模板只能用于剖析与该模板位于同一区域的数据。例如,如果您将 发现,以使用存储在 us-west1 中的检查模板 敏感数据保护只能分析该区域中的数据。

您可以为存储了数据的每个区域设置专用检查模板。如果您提供存储在 global 区域的检查模板,敏感数据保护功能会针对没有专用检查模板的区域中的数据使用该模板。

下表提供了示例场景:

情况 支持
使用 us 区域中的检查模板扫描 us 区域中的数据。 支持
使用 us 区域中的检查模板扫描 global 区域中的数据。 不支持
使用 global 区域中的检查模板扫描 us 区域中的数据。 支持
使用 us-east1 区域中的检查模板扫描 us 区域中的数据。 不支持
使用 us 区域中的检查模板扫描 us-east1 区域中的数据。 不支持
使用 asia 区域中的检查模板扫描 us 区域中的数据。 不支持

数据剖析文件配置

本部分仅适用于 Google Cloud 敏感数据发现 资源。有关与 Amazon S3 数据相关的数据驻留注意事项, 请参阅敏感部分 数据发现功能

当敏感数据保护服务创建数据分析文件时,它会为您的 扫描配置和检查模板,并将它们存储在每个表数据中 个人资料文件存储数据 个人资料。 如果您将发现功能配置为使用 global 区域中的检查模板,则敏感数据保护功能会将该模板复制到包含要剖析的数据的任何区域。同样,它会将扫描配置复制到这些区域。

假设此示例:项目 A 包含表 1。表 1 位于 us-west1 区域;扫描配置位于 us-west2 区域;检查模板位于 global 区域。

当敏感数据保护功能扫描项目 A 时,它会为表 1 创建数据分析文件并将其存储在 us-west1 区域。表 1 的表数据剖析文件包含扫描配置的副本以及剖析操作中使用的检查模板。

如果您不希望将您的检查模板复制到其他区域,请不要将敏感数据保护功能配置为扫描这些区域中的数据。

数据剖析文件的区域存储

本部分仅适用于 Google Cloud 敏感数据发现 资源。如需了解与 Amazon S3 数据相关的数据驻留注意事项,请参阅Amazon S3 数据的敏感数据发现

敏感数据保护功能会在数据资产所在的区域或多区域中处理这些数据资产,并将生成的数据分析文件存储在同一区域或多区域中。

如需在 Google Cloud 控制台中查看数据剖析文件,您必须先选择它们所在的区域。如果您在多个区域中有数据,则必须切换区域才能查看每组配置文件。

不支持的区域

本部分仅适用于 Google Cloud 资源的敏感数据发现功能。有关与 Amazon S3 数据相关的数据驻留注意事项, 请参阅敏感部分 数据发现功能

如果您的数据资产位于 Sensitive Data Protection 不支持的区域,则发现服务会跳过这些数据资产,并在您查看数据剖析文件时显示错误。

多区域

敏感数据保护将多区域视为一个区域,而不是区域的集合。例如,就数据驻留而言,us 多区域和 us-west1 区域被视为两个单独的区域。

可用区级资源

Sensitive Data Protection 是一项单区域和多区域服务;它 不区分可用区对于受支持的区域性资源(例如 Cloud SQL 实例),系统会在其当前地区处理数据,但不一定是在其当前区域处理。例如,如果 Cloud SQL 实例存储在 us-central1-a 可用区,则 Sensitive Data Protection 会在 us-central1 区域处理和存储数据配置文件。

如需大致了解 Google Cloud 位置,请参阅地理位置和 区域

合规性

如需了解 Sensitive Data Protection 如何处理您的数据以及如何帮助您满足合规性要求,请参阅数据安全

后续步骤