如需详细了解数据剖析文件,请参阅适用于 BigQuery 数据的数据剖析文件。
如需开始分析数据,您需要创建一个扫描配置。
准备工作
确认您具有在组织级别配置数据配置文件所需的 IAM 权限。
如果您没有组织管理员 (
roles/resourcemanager.organizationAdmin
) 或安全管理员 (roles/iam.securityAdmin
) 角色,则仍然可以创建扫描配置。但是,创建扫描配置后,具有其中任一角色的人必须向服务代理授予数据剖析访问权限。您可以配置 Cloud DLP,以便在发生某些事件(如 Cloud DLP 分析新表)时向 Pub/Sub 发送通知。如果您想使用此功能,则必须先创建 Pub/Sub 主题。
创建扫描配置
如需创建扫描配置,请执行以下部分中的步骤。在每个部分的末尾,点击继续。
转到创建扫描配置页面。
如有需要,请转到您的单位。在工具栏上,点击
项目选择器,然后选择您的组织。
以下部分详细介绍了创建扫描配置页面中的步骤。
选择要扫描的资源
执行下列其中一项操作:- 如需在组织级别配置性能剖析,请选择扫描整个组织。
- 如需在文件夹级别配置性能剖析,请选择扫描所选文件夹。然后,点击浏览并选择文件夹。
管理时间表
如果默认分析频率符合您的需求,您可以跳过创建扫描配置页面的此部分。如果您要对所有数据或特定数据子集的分析频率进行精细调整,此部分会非常有用。如果您不希望对某些表进行性能分析,或者希望只对表进行一次分析然后又不执行分析,此工具也非常有用。
在本部分中,您将创建过滤条件,以指定您感兴趣的某些数据子集。对于这些子集,您可以定义 Cloud DLP 是否应分析这些表以及处理频率。您还可以在此处指定应该对表进行重新分析的更改类型。最后,您需要指定子集中的每个表必须满足的所有条件,然后 Cloud DLP 才能开始分析该表。
如需对分析频率进行精细调整,请按以下步骤操作:
- 点击添加展示时间。
在过滤条件部分,定义一个或多个过滤条件,指定哪些表在时间表范围内。
请至少指定下列其中一项:
- 指定一个或多个项目的项目 ID 或正则表达式。
- 数据集 ID 或指定一个或多个数据集的正则表达式。
- 表格 ID 或指定一个或多个表格的正则表达式。
正则表达式必须遵循 RE2 语法。
例如,如果您希望将项目中的所有表包含在过滤器中,请指定该项目的 ID 并将另外两个字段留空。
如果您想添加更多过滤条件,请点击添加过滤条件并重复此步骤。
点击频率。
在频率部分,指定 Cloud DLP 是否应该对您在过滤条件中定义的表进行性能剖析,如果是,请多久检查一次:
如果您不希望对表进行性能剖析,请关闭分析表。
如果您希望对表进行至少一次性能剖析,请将对表进行性能剖析,然后按照以下步骤操作:
在架构更改时间字段中,指定在上次对表进行架构更改后表需要对其进行重新性能剖析的时间。
- 不重新分析:初始配置文件生成后,一律不要重新分析。
- 每天重新分析:每 24 小时重新分析一次。
- 每月重新分析:每 30 天重新分析一次。
对于架构更改类型,指定哪些类型的架构更改应该触发重新分析操作:
- 新列:重新分析获得新列的表。
- 已移除的列:重新分析已移除列的表。
假设您希望每 24 小时运行一次重新分析操作。此外,您希望仅重新分析在上次分析后获取新列的表。在这种情况下,请将架构更改时间设置为每天重新分析,并将架构更改类型设置为新列。
在表的更改时间字段中,指定在对表进行最后一次分析后是否对其进行更改时,要对表进行重新分析。表更改的示例包括行删除和架构更改。
- 不重新分析:初始配置文件生成后,一律不要重新分析。
- 每天重新分析:每 24 小时重新分析一次。
- 每月重新分析:每 30 天重新分析一次。
您选择的值必须与您在架构更改字段中设置的值相同或更低。
点击条件。
在条件部分,指定表(在过滤条件中定义)必须满足的所有条件,然后 Cloud DLP 才会分析这些表。如果您设置了最小条件和时间条件,则 Cloud DLP 只会分析同时满足这两种条件的表。
- 最低条件:如果您想要将表的分析延迟到其具有足够的行或达到特定存在时间,这些条件将非常有用。启用您要应用的条件,并指定最小行数或时长。
- 时间条件:如果您不想对旧表进行性能分析,则此条件非常有用。开启时间条件,然后选择一个日期和时间。在此日期之前或之前创建的任何表都不会从分析中获得。
假设您有以下配置:
基本条件
- 最小行数:10 行
- 最短时长:24 小时
时间条件
- 时间戳:5/4/22, 11:59 PM
在这种情况下,Cloud DLP 会排除 2022 年 5 月 4 日晚上 11:59 之前创建的任何表。对于在此日期和时间之后创建的表,Cloud DLP 只会分析具有 10 行或至少已存在 24 小时的表。
点击完成。
如果您想添加更多投放时间,请点击添加时间表,然后重复上述步骤。
如需根据优先级对时间表进行重新排序,请使用
向上箭头和 向下箭头。例如,如果两个不同时间表中的过滤器与表 A 匹配,则优先级较高的时间表中优先级较高的时间表优先。列表中的最后一个时间表始终是标记为默认时间表的时间表。此默认时间表包含所选资源(组织或文件夹)中与您创建的任何时间表均不匹配的表。此默认时间表遵循系统默认性能分析频率。
如果您要调整默认时间表,请点击
修改时间表,然后根据需要调整设置。
选择检查模板
根据您希望提供检查配置的方式,选择下列选项之一。无论您选择哪个选项,Cloud DLP 都会扫描您在配置 BigQuery 以存储该数据的区域中的数据。您的 BigQuery 数据不会离开其来源区域。
选项 1:创建检查模板
如果要在 global
区域中创建新的检查模板,请选择此选项。
- 点击创建新的检查模板。
可选:如需修改 infoType 的默认选择,请点击管理 infoType。 使用过滤器查找并选择 infoType。接着,点击完成。
可选:通过添加规则集并设置置信度阈值,进一步配置检查模板。如需了解详情,请参阅配置检测。
Cloud DLP 创建扫描配置时,会将这一新的检查模板存储在
global
区域。
选项 2:使用现有检查模板
如果您想使用现有的检查模板,请选择此选项。
点击选择现有的检查模板。
输入您要使用的检查模板的完整资源名称。Region 字段会自动填充存储检查模板的区域的名称。
您输入的检查模板必须与要分析的数据位于同一区域。为了尊重数据驻留,Cloud DLP 不使用其所在区域之外的检查模板。
要查找检查模板的完整资源名称,请按以下步骤操作:
转到检查模板列表。系统会在另一个标签页中打开此页面。
如果需要,请切换到包含您要使用的检查模板的项目。
在模板标签页上,点击要使用的模板的 ID。
在打开的页面上,复制模板的完整资源名称。完整资源名称采用以下格式:
projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
在创建扫描配置页面的模板名称字段中,粘贴模板的完整资源名称。
如果您有另一个区域的数据,并且有要用于该区域的检查模板,请按以下步骤操作:
- 点击添加检查模板。
- 输入检查模板的完整资源名称。
对具有专用检查模板的每个区域重复上述步骤。
可选:添加存储在
global
区域的检查模板。 在您没有专用检查模板的区域,Cloud DLP 会自动使用该模板来处理数据。
管理扫描结果
在以下部分中,您可以指定希望 Cloud DLP 在生成数据配置文件后执行的操作。
发布到 Chronicle
从数据配置文件收集的指标可以向 Chronicle 结果添加上下文。添加的上下文有助于您确定要解决的最重要安全问题。例如,如果您正在调查 Chronicle 中的特定服务代理,则数据配置文件可以深入分析该服务代理是否可以访问数据风险较高的表。
要将您的数据配置文件发送到您的 Chronicle 帐号,请开启发布到 Chronicle。
如果您的组织未启用 Chronicle,则启用此选项不会有任何效果。
将数据配置文件副本保存到 BigQuery
开启将数据配置文件副本保存到 BigQuery 可以保存所有已生成配置文件的已保存副本或历史记录。这样做有助于创建审核报告和直观呈现数据配置文件。您还可以将这些信息加载到其他系统中。
此外,通过此选项,您可以在一个视图中查看您的所有数据,无论数据位于哪个区域。关闭此选项后,您仍可以在信息中心查看数据配置文件。 但是,在信息中心中,您一次仅选择一个区域,并且只能看到该区域的数据配置文件。
如需将数据配置文件的副本导出到 BigQuery 表,请按以下步骤操作:
开启将数据配置文件副本保存到 BigQuery。
输入您要保存数据配置文件的 BigQuery 表的详细信息:
在项目 ID 部分,输入要将数据配置文件导出到的现有项目的 ID。
在数据集 ID 部分,输入项目中要导出到数据配置文件的现有数据集的名称。
在表 ID 部分,输入数据配置文件将导出到的 BigQuery 表的名称。如果您尚未创建此表,Cloud DLP 会使用您提供的名称自动为您创建此表。
开启此选项后,Cloud DLP 就会开始导出配置文件。您在启用导出功能之前生成的配置文件不会保存到 BigQuery。
发布到 Pub/Sub
开启发布到 Pub/Sub 后,您可以根据分析结果执行程序化操作。您可以使用 Pub/Sub 通知制定工作流程,以捕获和修复具有重大数据风险或敏感度的发现结果。
如需向 Pub/Sub 主题发送通知,请按以下步骤操作:
开启发布到 Pub/Sub。
系统会显示一个选项列表。每个选项都描述了导致 Cloud DLP 向 Pub/Sub 发送通知的事件。
选择应触发 Pub/Sub 通知的事件。
如果您选择每次更新配置文件时发送 Pub/Sub 通知,则当以下表级层指标发生更改时,Cloud DLP 会收到通知:
- 数据风险
- 敏感程度
- 预测的 infoType
- 其他 infoType
- 公开
- 加密
对于您选择的每个事件,请按以下步骤操作:
输入主题的名称。名称必须采用以下格式:
projects/PROJECT_ID/topics/TOPIC_ID
替换以下内容:
- PROJECT_ID:与 Pub/Sub 主题相关联的项目的 ID。
- TOPIC_ID:Pub/Sub 主题的 ID。
指定是在通知中包含完整的表配置文件,还是仅包含分析的表格的完整资源名称。
设置 Cloud DLP 发送通知必须满足的最低数据风险和敏感度级别。
指定是否必须同时满足数据风险和灵敏度条件之一或者同时满足这两个条件。例如,如果您选择
AND
,则必须满足数据风险和灵敏度条件,Cloud DLP 才会发送通知。
管理服务代理容器和结算
在本部分中,您将指定用作服务代理容器的项目。您可以让 Cloud DLP 自动创建一个新项目,也可以选择现有项目。
如果您是首次创建扫描配置,请点击创建新项目作为服务代理容器。
Cloud DLP 会创建名为 DLP Service Agent Container 的新项目。此项目实际上是包含新服务代理的常规 Google Cloud 项目。Cloud DLP 会提示您选择对与此项目相关的所有计费操作(包括与数据分析无关的操作)进行结算的帐号。
如果您有要重复使用的现有服务代理容器,请点击选择现有的服务代理容器。然后,点击浏览以选择服务代理容器的项目 ID。
无论您使用的是新创建的服务代理还是重复使用现有的服务代理,都要确保它对要分析的数据具有读取权限。如果要将配置文件导出到 BigQuery,请确保它也具有输出表的写入权限。
设置用于存储配置的位置
点击资源位置列表,然后选择要存储此扫描配置的区域。您稍后创建的所有扫描配置也将存储在此位置。
您选择存储扫描配置的位置不会影响要扫描的数据。另外,它也不会影响数据剖析文件的存储位置。系统会扫描存储数据的同一个区域(在 BigQuery 中设置)中的数据。如需了解详情,请参阅数据驻留注意事项。
检查并创建
如果您不希望在创建扫描配置后立即开始剖析,请选择在暂停模式下创建扫描。
在以下情况下,此选项非常有用:
- 您的 Google Cloud 管理员仍然需要向服务代理授予数据剖析访问权限。
- 您想要创建多个扫描配置,并且希望某些配置覆盖其他配置。
- 您已选择将数据配置文件保存到 BigQuery,并且想要确保服务代理对输出表具有写入权限。
- 您配置了 Pub/Sub 通知,并希望向服务代理授予发布权限。
检查设置,然后点击创建。
Cloud DLP 会创建扫描配置并将其添加到配置列表中。
如需查看或管理扫描配置,请转到数据分析文件配置列表。
如果您的服务代理具有访问和分析数据所需的角色,则 Cloud DLP 会在您创建扫描配置后立即开始扫描数据。否则,当您查看扫描配置详细信息时,Cloud DLP 会显示错误。
后续步骤
- 如果您没有组织管理员 (
roles/resourcemanager.organizationAdmin
) 或安全管理员 (roles/iam.securityAdmin
) 角色,则具有其中某一角色的某人必须向您的服务代理授予数据剖析访问权限。 - 了解如何查看数据配置文件。
- 了解如何管理扫描配置。
- 了解如何排查数据配置文件问题。