分析组织或文件夹中的数据

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

本页面介绍了如何在组织或文件夹级别配置性能剖析。如果您要分析项目,请参阅分析单个项目中的数据

如需详细了解数据剖析文件,请参阅适用于 BigQuery 数据的数据剖析文件

如需开始分析数据,请创建扫描配置。

准备工作

  1. 确认您具有在组织级别配置数据配置文件所需的 IAM 权限。

    如果您没有 Organization Administrator (roles/resourcemanager.organizationAdmin) 或 Security Admin (roles/iam.securityAdmin) 角色,则仍可创建扫描配置。但是,创建扫描配置后,具有其中任一角色的人员必须向服务代理授予数据剖析访问权限

  2. 您必须在要分析数据的每个区域中都有一个检查模板。如果要针对多个区域使用一个模板,您可以使用存储在 global 区域的模板。如果组织政策阻止您创建 global 检查模板,则必须为每个区域设置专用检查模板。如需了解详情,请参阅数据驻留注意事项

    此任务允许您仅在 global 区域中创建检查模板。如果您需要为一个或多个区域指定专用检查模板,则必须先创建这些模板,然后再执行此任务。

  3. 您可以配置 Cloud DLP,以便在发生某些事件(例如 Cloud DLP 分析新表)时向 Pub/Sub 发送通知。如果您想使用此功能,则必须先创建 Pub/Sub 主题

如需生成数据配置文件,您需要一个服务代理容器和一个服务代理。此任务允许您自动创建它们。

创建扫描配置

  1. 转到创建扫描配置页面。

    转到“创建扫描配置”

  2. 转到您的组织。点击工具栏中的 项目选择器,然后选择您的组织。

    工具栏上的项目选择器的屏幕截图

以下部分详细介绍了创建扫描配置页面中的步骤。完成各部分后,请点击继续

选择要扫描的资源

执行下列其中一项操作:

  • 如需在组织级别配置性能分析,请选择扫描整个组织
  • 如需在文件夹级别配置性能剖析,请选择扫描所选文件夹。点击浏览,然后选择文件夹。

管理时间表

如果默认分析频率符合您的需求,您可以跳过创建扫描配置页面的此部分。如果您要对所有数据或特定数据子集的分析频率进行精细调整,此部分会非常有用。如果您不想对某些表进行分析,或者希望对表进行一次分析,但之后再分析,也非常有用。

在本部分中,您将创建过滤条件来指定您感兴趣的特定数据子集。对于这些子集,您可以定义 Cloud DLP 是否应分析表,以及分析频率。您还可以在此部分中指定应重新分析表的更改类型。最后,您需要指定子集中的每个表必须满足的所有条件,然后 Cloud DLP 才能开始分析该表。

如需对分析频率进行精细调整,请按以下步骤操作:

  1. 点击添加展示时间
  2. 过滤条件部分,您可以定义一个或多个过滤条件,以指定哪些表在时间表范围内。

    请至少指定以下其中一个属性:

    • 指定一个或多个项目的项目 ID 或正则表达式。
    • 指定一个或多个数据集的数据集 ID 或正则表达式。
    • 指定一个或多个表的表 ID 或正则表达式。

    正则表达式必须遵循 RE2 语法

    例如,如果您希望将项目中的所有表包含在过滤条件中,请指定该项目的 ID,并将另外两个字段留空。

    如果要添加更多过滤条件,请点击添加过滤条件,然后重复此步骤。

  3. 点击频率

  4. 频率部分,指定 Cloud DLP 是否应分析您在过滤条件中定义的表;如果是,请分析频率:

    • 如果您从不希望对表进行分析,请关闭分析表

    • 如果您希望对表进行至少一次分析,请将分析表保持开启状态,然后按照以下步骤操作:

      1. 架构更改时字段中,指定在上一次分析后对表进行架构更改时,希望对表进行何时重新分析。

        • 不要重新分析:在生成初始分析后,不要重新分析。
        • 每日重新分析:每 24 小时重新分析一次。
        • 每月重新分析:每 30 天重新分析一次。
      2. 对于架构更改类型,指定哪些类型的架构更改应触发重新分析操作:

        • 新列:重新分析获得了新列的表。
        • 已移除的列:重新分析已移除列的表。

        假设您希望每 24 小时运行一次重新分析操作。此外,您希望仅重新分析上次分析后获取新列的表。在这种情况下,请将架构更改时间设置为每日重新分析,并将架构更改类型设置为新列

      3. 表更改时字段中,指定在表经过分析后对表进行任何更改时您希望重新对其进行分析的时间。表更改的示例包括行删除和架构更改。

        • 不要重新分析:在生成初始分析后,不要重新分析。
        • 每日重新分析:每 24 小时重新分析一次。
        • 每月重新分析:每 30 天重新分析一次。

      您选择的值必须与您在架构更改字段中设置的值相同或更低。

  5. 点击条件

  6. 条件部分,指定在过滤条件中定义的表在 Cloud DLP 对其进行分析之前必须满足的所有条件。如果您同时设置了最低条件和时间条件,则 Cloud DLP 仅会分析同时满足这两种条件的表。

    • 最小条件:如果您想要延迟分析表,直到其有足够的行或达到一定的存在时间,这些条件会很有用。启用要应用的条件,并指定最小行数或时长。
    • 时间条件:如果您不希望对旧表进行分析,此条件会非常有用。开启时间条件,然后选择日期和时间。系统会排除该日期当天或之前创建的任何表。

    假设您具有以下配置:

    • 最低要求

      • 最小行数:10 行
      • 最短时长:24 小时
    • 时间条件

      • 时间戳:5/4/22, 11:59 PM

    在这种情况下,Cloud DLP 会排除 2022 年 5 月 4 日晚上 11:59 当天或之前创建的任何表。在在此日期和时间之后创建的表中,Cloud DLP 仅分析具有 10 行或至少已存在 24 小时的表。

  7. 要分析的表部分,根据要分析的表的类型,选择以下选项之一:

    • 分析所有表:如果您希望 Cloud DLP 分析与您的过滤条件和时间条件匹配的所有表类型,请选择此选项。

      对于不受支持的表类型,Cloud DLP 仅生成部分填充的配置文件。此类配置文件会显示错误,表明它们所属的表不受支持。如果您希望在看到错误消息后看到部分个人资料,请选择此选项。

      当 Cloud DLP 添加对新表类型的支持后,会在下一次计划运行期间完全重新分析该类型的表。

    • 分析支持的表:如果您希望 Cloud DLP 仅分析符合您的过滤条件和时间条件的受支持表,请选择此选项。不受支持的表将不具备部分配置文件。

    • 分析特定表类型:如果您希望 Cloud DLP 仅分析您选择的表类型,请选择此选项。在显示的列表中,选择一种或多种类型。

      当 Cloud DLP 添加对新表类型的支持时,不会自动分析该类型的表。如需分析新支持的表类型,您必须修改扫描配置,然后选择这些类型。

    如果您未选择某个选项,则 Cloud DLP 仅会分析 BigQuery 表,并显示不受支持的表的错误。

    数据分析的价格因分析的表类型而异。如需了解详情,请参阅数据分析价格

  8. 点击完成

  9. 如果您想添加更多时间表,请点击添加时间表并重复前面的步骤。

  10. 如需根据优先级对时间表重新排序,请使用 向上和 向下箭头。例如,如果两个不同时间表中的过滤条件与表 A 匹配,则优先级列表中优先级较高的时间表优先。

    列表中的最后一个时间表始终是标记为默认时间表的时间表。此默认时间表涵盖所选资源(组织或文件夹)中与您创建的任何时间表不匹配的表。此默认时间表遵循系统默认性能分析频率

  11. 如果您想调整默认时间表,请点击 修改时间表,然后根据需要调整设置。

选择检查模板

根据您希望提供检查配置的方式,选择以下选项之一。无论您选择哪个选项,Cloud DLP 都会扫描您配置 BigQuery 中存储该数据的区域中的数据。您的 BigQuery 数据不会离开其原始区域。

方法 1:创建检查模板

如果要在 global 区域中创建新的检查模板,请选择此选项。

  1. 点击创建新的检查模板
  2. 可选:如需修改默认的 infoType 选择,请点击管理 infoType。 使用过滤条件查找并选择 infoType。点击完成

  3. 可选:通过添加规则集并设置置信度阈值,进一步配置检查模板。如需了解详情,请参阅配置检测

    Cloud DLP 创建扫描配置后,会将此新检查模板存储在 global 区域。

方法 2:使用现有检查模板

如果您有要使用的现有检查模板,请选择此选项。

  1. 点击选择现有的检查模板

  2. 输入要使用的检查模板的完整资源名称。Region 字段会自动填充存储检查模板的区域的名称。

    您输入的检查模板必须与要分析的数据位于同一区域。为了尊重数据驻留,Cloud DLP 不使用自己的区域之外的检查模板。

    要查找检查模板的完整资源名称,请按以下步骤操作:

    1. 转到检查模板列表。系统会在另一个标签页中打开此页面。

      转到检查模板

    2. 切换到包含您要使用的检查模板的项目。

    3. 模板标签页上,点击要使用的模板的 ID。

    4. 在打开的页面上,复制模板的完整资源名称。完整资源名称采用以下格式:

      projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
    5. 创建扫描配置页面的模板名称字段中,粘贴模板的完整资源名称。

  3. 如果您在其他区域中有数据,并且有要用于该区域的检查模板,请按以下步骤操作:

    1. 点击添加检查模板
    2. 输入检查模板的完整资源名称。

    对具有专用检查模板的每个区域重复执行上述步骤。

  4. 可选:添加存储在 global 区域的检查模板。对于您没有专用检查模板的区域,Cloud DLP 会自动使用该模板中的数据。

添加操作

在以下部分中,您将指定希望 Cloud DLP 在生成数据配置文件后执行的操作。

发布到 Chronicle

从数据配置文件收集的指标可为您的 Chronicle 发现结果添加背景信息。添加的上下文可以帮助您确定要解决的最重要安全问题。例如,如果您要调查 Chronicle 中的特定服务代理,则数据配置文件可以深入分析该服务代理是否可以访问数据风险水平较高的表。

要将您的数据配置文件发送到 Chronicle 帐号,请开启 Publish to Chronicle

如果您的组织未启用 Chronicle,则启用此选项不会产生任何影响。

将数据配置文件副本保存到 BigQuery

启用将数据配置文件副本保存到 BigQuery 可以保存所有已生成配置文件的已保存副本或历史记录。这样做有助于创建审核报告和直观呈现数据配置文件。您还可以将这些信息加载到其他系统中。

此外,无论数据位于哪个区域,此选项都可以让您在一个视图中查看您的所有数据配置文件。关闭此选项后,您仍可以在信息中心内查看数据配置文件。但是,在信息中心内,您一次只能选择一个区域,只能查看该区域的数据配置文件。

如需将数据配置文件的副本导出到 BigQuery 表,请按以下步骤操作:

  1. 开启将数据配置文件副本保存到 BigQuery

  2. 输入要保存数据配置文件的 BigQuery 表的详细信息:

    • 对于项目 ID,输入要将数据配置文件导出到的现有项目的 ID。

    • 对于数据集 ID,输入要将数据配置文件导出到中的现有数据集的名称。

    • 对于表 ID,输入要将数据配置文件导出到的 BigQuery 表的名称。如果您尚未创建此表,Cloud DLP 将使用您提供的名称自动为您创建此表。

从您开启此选项开始,Cloud DLP 就会开始导出配置文件。您在启用导出功能之前生成的配置文件不会保存到 BigQuery。

发布到 Pub/Sub

开启发布到 Pub/Sub,您可以根据分析结果执行程序化操作。您可以使用 Pub/Sub 通知开发工作流,以捕获和修复具有重大数据风险或敏感性的发现结果。

如需向 Pub/Sub 主题发送通知,请按以下步骤操作:

  1. 开启发布到 Pub/Sub

    系统会显示选项列表。每个选项都描述了一个事件,该事件导致 Cloud DLP 向 Pub/Sub 发送通知。

  2. 选择应触发 Pub/Sub 通知的事件。

    如果您选择每次更新配置文件时都发送 Pub/Sub 通知,则 Cloud DLP 会在以下表级指标发生更改时发送通知:

    • 数据风险
    • 敏感度
    • 预测的 infoType
    • 其他 infoType
    • 公开
    • 加密
  3. 对于您选择的每个事件,请按以下步骤操作:

    1. 输入主题的名称。名称必须采用以下格式:

      projects/PROJECT_ID/topics/TOPIC_ID
      

      请替换以下内容:

      • PROJECT_ID:与 Pub/Sub 主题关联的项目的 ID。
      • TOPIC_ID:Pub/Sub 主题的 ID。
    2. 指定在通知中包含完整的表配置文件,还是仅包含要分析的表的完整资源名称。

    3. 设置 Cloud DLP 发送通知所需的最低数据风险和敏感度级别。

    4. 指定是否只能同时满足数据风险和/或敏感条件。例如,如果您选择 AND,则 Cloud DLP 必须同时满足数据风险和敏感度条件才能发送通知。

管理服务代理容器和结算

在本部分中,您需要指定将用作服务代理容器的项目。您可以让 Cloud DLP 自动创建新项目,也可以选择现有项目。

  • 如果您没有服务代理容器,请选择创建新项目作为服务代理容器

    Cloud DLP 会创建一个名为 DLP Service Agent Container 的新项目。此项目实际上是包含新服务代理的常规 Google Cloud 项目。Cloud DLP 会提示您选择帐号来结算与此项目相关的所有计费操作,包括与数据分析无关的操作。

    如果您不具备创建项目所需的权限,则此选项处于停用状态。如需了解所需的权限,请参阅在组织或文件夹级别使用数据配置文件所需的角色

  • 如果您想要重复使用现有的服务代理容器,请选择选择现有的服务代理容器。然后,点击浏览,选择 Service Agent 容器的项目 ID。

无论您是使用新创建的服务代理,还是重复使用现有服务代理,请确保该服务代理对要分析的数据拥有读取权限。

设置用于存储配置的位置

点击资源位置列表,然后选择要存储此扫描配置的区域。您稍后创建的所有扫描配置也将存储在此位置。

您选择存储扫描配置的位置不会影响要扫描的数据。另外,它也不会影响数据剖析文件的存储位置。系统会扫描存储数据的同一个区域(在 BigQuery 中设置)中的数据。如需了解详情,请参阅数据驻留注意事项

检查并创建

  1. 如果您不希望在创建扫描配置后立即开始分析,请选择在暂停模式下创建扫描

    在以下情况下,此方式非常有用:

    • 您的 Google Cloud 管理员仍需向服务代理授予数据剖析访问权限
    • 您想要创建多个扫描配置,并希望某些配置能够替换其他配置。
    • 您已选择将数据配置文件保存到 BigQuery,并且希望确保服务代理对您的输出表具有写入权限。
    • 您已配置 Pub/Sub 通知,并且想要授予服务代理的发布权限
  2. 检查设置,然后点击创建

    Cloud DLP 会创建扫描配置并将其添加到配置列表中。

如需查看或管理扫描配置,请转到数据分析文件配置列表。

转到数据剖析文件配置

如果您的服务代理具有访问和分析数据所需的角色,则 Cloud DLP 会在您创建扫描配置后立即开始扫描数据。否则,当您查看扫描配置详细信息时,Cloud DLP 会显示错误

后续步骤