通过发现和检查来了解您的数据

本页介绍并比较了两项 Sensitive Data Protection 服务:发现服务检查服务,它们可帮助您了解数据并实现数据治理工作流。

敏感数据发现

发现服务会监控贵组织中的数据资产。该服务会持续运行,并自动发现、分类和分析数据资产。探询可帮助您了解 您存储的数据的位置和性质, 可能不知道。通常是未知数据(有时称为影子数据) 进行数据治理和风险管理。 数据。

您可以在各种范围内配置发现。您可以 为不同的数据子集设置不同的分析时间表。您 也可以排除不需要分析的数据子集。

发现扫描输出:数据分析文件

发现扫描的输出是一组数据分析文件,针对范围内的每个数据资产生成一项。对于 例如,对 BigQuery 或 Cloud SQL 数据的发现扫描会生成 项目级、表级和列级的数据分析文件。

数据分析文件包含所分析的资源的相关指标和数据分析。它 包含数据分类(或 infoTypes)、敏感度级别、数据 风险级别、数据大小、数据形状以及描述数据性质的其他元素 数据及其数据安全状况(数据的安全性)。您可以使用数据配置文件,就如何保护数据做出明智的决策,例如,在表上设置访问权限政策。

假设有一个名为 ccn 的 BigQuery 列,其中每行都包含一个 唯一信用卡号,并且没有空值。生成的列级数据剖析文件将包含以下详细信息:

显示名称
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

此外,此列级配置文件是表级配置文件的一部分 配置文件,它提供了 例如数据位置、加密状态以及表是否 公开共享。在 Google Cloud 控制台中,您还可以查看 表的 Cloud Logging 条目、IAM 主账号 其中包含表的角色以及附加到表的 Dataplex 标记。

表级数据分析文件,用于显示有关表的指标和数据分析,并让您能够在 Logging、IAM 和 Dataplex 中查看表。

如需查看数据分析文件中提供的指标和数据分析的完整列表,请参阅指标 参考

何时使用发现

在规划数据风险管理方法时,我们建议您从 和发现。发现服务可帮助您全面了解数据,并启用提醒报告问题补救功能。

此外,发现服务还可以帮助您确定可能包含非结构化数据的资源。此类资源可能需要进行详尽的检查。非结构化数据由高度自由文本 得分 0 到 1。

敏感数据检查

检查服务会对单个资源执行全面扫描,以找到敏感数据的每个实例。检查会为每个检测到的违规实例生成一个发现结果

检查作业提供了丰富的配置选项,可帮助您精确找到要检查的数据。例如,您可以启用抽样功能,将要检查的数据限制为特定行数(对于 BigQuery 数据)或特定文件类型(对于 Cloud Storage 数据)。您还可以定位到数据创建或修改的特定时间段。

与持续监控数据的 Discovery 不同,检查是 按需运行不过,您可以安排名为作业触发器的周期性检查作业。

检查扫描输出:发现结果

每个发现结果都包含详细信息,例如所检测到的实例的位置、 潜在的 infoType,以及确定性(也称为 可能性) infoType。根据您的设置,您还可以获取相应发现所涉及的实际字符串;在敏感数据保护中,此字符串称为引用

如需查看检查发现结果中所含详细信息的完整列表,请参阅 Finding

何时使用检查

如果您需要调查非结构化数据(例如 用户发表的评论或评价)并找出每一次 个人身份信息 (PII)。如果发现扫描发现任何资源 包含非结构化数据,我们建议对这些数据运行检查扫描, 资源的详细信息,帮助您详细了解每个发现结果。

何时不应使用检查

如果同时满足以下两个条件,则检查资源没有用处。发现扫描可以帮助您决定是否需要检查扫描。

  • 资源中只有结构化数据。也就是说,没有包含自由格式数据(例如用户评论或评价)的列。
  • 您已了解存储在该资源中的 infoType。

例如,假设某次发现扫描的数据分析文件表明, 某些 BigQuery 表不包含包含非结构化信息的列 数据,但包含一列唯一的信用卡号。在这种情况下,检查表格中的信用卡号没有用。检查会为该列中的每项生成一条发现。如果您有 100 万行,并且每一行 包含 1 个信用卡号,一个检查作业将产生 100 万项发现结果 针对 CREDIT_CARD_NUMBER infoType。在此示例中,无需进行检查,因为发现扫描已表明该列包含唯一的信用卡号。

数据驻留、处理和存储

发现和检查都支持数据驻留要求:

  • 发现服务会在数据所在位置对其进行处理 将生成的数据分析文件存储在与 分析数据。如需了解详情,请参阅数据驻留注意事项
  • 在 Google Cloud 存储系统中检查数据时,检查服务会在数据所在的区域处理数据,并将检查作业存储在该区域。检查 混合作业或 content 方法时, 借助检查服务,您可以指定它应该在哪里处理您的 数据。如需了解详情,请参阅数据的存储方式

比较摘要:发现和检查服务

发现 检查
优势
  • 在组织、文件夹或项目中持续可见。
  • 有助于识别包含敏感、高风险和 非结构化数据。如需查看完整的数据分析列表,请参阅 指标参考
  • 有助于发现未知数据(或“影子数据”)。
  • 对单个资源进行按需检查。
  • 识别所检查资源中敏感数据的每个实例。
费用
  • 运行费用估算:免费
  • 用量模式:每 GB$0.03 或 3 TB 价格(以较低者为准)
  • 订阅模式(预留容量):每订阅单元 2,500 美元

在用量模式下,10 TB 的费用约为每月 300 美元。
  • 1 GB 以下:免费
  • 1 GB 到 50 TB:每 GB 1.00 美元
  • 50 TB 到 500 TB:每 GB$0.75
  • 超过 500 TB:每 GB 0.60 美元

如果是 10 TB,每次扫描的费用大约为 1 万美元。
支持的数据源 BigLake
BigQuery
Cloud Run 函数环境变量
Cloud Run 服务修订环境变量
Cloud SQL
Cloud Storage
Amazon S3
BigQuery
Cloud Storage
Datastore
混合(任何来源)1
支持的作用域
  • Google Cloud 组织、文件夹、项目或数据资产
  • Amazon Web Services 组织、账号或 S3 存储桶
单个 BigQuery 表、Cloud Storage 存储桶或 Datastore 种类。
内置检查模板
内置自定义 infoType
扫描输出 所有受支持数据的简要概览(数据分析文件)。 被检查资源中敏感数据的具体发现结果。
将结果保存到 BigQuery
以标记形式发送到 Dataplex
将结果发布到 Security Command Center
将发现结果发布到 Google Security Operations (适用于组织级和文件夹级发现)
发布到 Pub/Sub
数据驻留支持

1 混合检查在 价格模式。如需了解详情,请参阅检查来自任何来源的数据

后续步骤