本页面介绍了如何在敏感数据保护分析 BigQuery 表后,自动将 Dataplex 标记应用于这些表。本页面还提供了示例查询,您可以使用这些查询在整个组织和项目中查找已标记的数据。
如果您希望使用从敏感数据保护数据分析中收集的数据洞见来丰富 Dataplex 中手动挑选的元数据,此功能非常有用。生成的代码包含以下数据分析:
- 在表的列中检测到的信息类型 (infoTypes)
- 计算出的表格敏感度级别
- 计算出的表格数据风险等级
敏感数据保护数据分析中的数据分析可帮助您使用 Dataplex 发现组织中的敏感数据和高风险数据。这些数据分析可帮助您就如何管理和治理数据做出明智的决策。
如果您想要将检查作业(而非数据分析操作)的结果发送到 Dataplex,请改为参阅将敏感数据保护检查结果发送到 Data Catalog。
数据分析文件简介
您可以配置敏感数据保护,以自动生成有关组织、文件夹或项目中的数据的配置文件。数据分析文件包含有关数据的指标和元数据,可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会以各种详细级别报告这些指标。如需了解您可以分析的数据类型,请参阅支持的资源。
Dataplex 和 Data Catalog 简介
Dataplex 是一项 Google Cloud 服务,它可以统一分布式数据,并自动对该数据进行数据管理和治理。Data Catalog 是 Dataplex 中的一项全代管式可伸缩元数据管理服务。
借助 Data Catalog,您可以使用标记和标记模板将业务元数据附加到数据。然后,您可以在统一服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅标记和标记模板。
运作方式
如果您的发现扫描配置启用了以代码形式发送到 Dataplex 操作,则敏感数据保护会在每次分析您的数据时执行以下操作。此操作仅适用于新的和更新后的商家资料。 未更新的现有配置文件不会发送到 Dataplex。
创建一个专用标记模板,其中包含将附加到 BigQuery 表的标记的架构。如需了解标记模板的名称、ID 和位置,请参阅标记模板详细信息。
只有具有适当角色和权限的主账号才能查看标记模板。
为您分析的每个 BigQuery 表创建一个标记。代码以新创建的代码模板为基础。
例如,附加到表的结果标记可以具有以下元数据:
显示名称 值 Column Insights
ccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESS
Column Sensitivity
ccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOW
Data Risk Level
HIGH
Other InfoTypes
PHONE_NUMBER
Predicted InfoTypes
CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
Profile Last Generated
DATE at TIME
Sensitive Data Profile
organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
Sensitivity Score
HIGH
如果通过以下两种方式分析某个表,则该表具有两个标记:
- 组织级或文件夹级扫描配置
- 项目级扫描配置
标记表后,您可以在 Dataplex 中搜索组织或项目中具有特定标记值的所有数据。
标记模板详细信息
模板名称、模板 ID 和存储新标记模板的项目取决于扫描配置所属的资源。
- 如果扫描配置是组织级或文件夹级配置,则标记模板存储在服务代理容器中。此标记模板的名称为
Sensitive Data Profile
。其模板 ID 为sensitive_data_profile
。 - 如果扫描配置是项目级配置,则标记模板会存储在要分析的项目中。此标记模板的名称为
Sensitive Data Profile (Project)
。其模板 ID 为sensitive_data_profile_project
。
价格
如需了解其他 Google Cloud 服务如何向您收取导出数据配置文件的费用,请参阅导出数据配置文件的价格。
根据数据分析文件自动标记 BigQuery 表
创建扫描配置。或者,您也可以修改现有的扫描配置。
- 如需在组织或文件夹级别创建扫描配置,请参阅在组织或文件夹中分析数据。
- 如需在项目级别创建扫描配置,请参阅在单个项目中分析数据。
在添加操作步骤中,确保已启用以标记形式发送到 Dataplex。
- 如果您要创建扫描配置,则默认情况下会启用此功能。
- 如果您要修改扫描配置,则必须启用此操作。
对数据进行性能剖析和标记后,您可以开始在 Dataplex 中搜索已标记的数据。
查看代码的角色和权限
Dataplex 搜索结果仅显示您有权访问的数据。您需要以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。
目的 | 预定义角色 | 相关权限 |
---|---|---|
查看不公开标记模板 | Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer ) |
datacatalog.tagTemplates.getTag |
查看应用于 BigQuery 表的标记 | BigQuery Metadata Viewer (roles/bigquery.metadataViewer ) |
bigquery.datasets.get bigquery.tables.get |
如需详细了解 Dataplex 角色,请参阅用于查看公共和私有标记的角色。
如需了解如何授予预定义角色,请参阅授予单个角色。如果您想使用自定义角色而不是预定义角色,请确保自定义角色具有相关权限。如需了解详情,请参阅创建自定义角色。
查找生成的代码模板
在 Google Cloud 控制台中,转到 Dataplex 代码模板页面。
在列表中,找到相应代码模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详细信息。
可选:如需查找由给定发现扫描配置生成的标记模板,请在过滤条件字段中输入以下内容:
name:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。
查找为给定表数据分析文件生成的标记
在 Google Cloud 控制台中,转到 Dataplex 搜索页面。
在搜索字段中,输入以下内容:
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- TABLE_ID:所分析表的 ID。
- PROJECT_ID:包含标记模板的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。
在显示的列表中,点击表格 ID。系统会显示 BigQuery 表的详细信息及其附加的任何
Sensitive Data Profile
或Sensitive Data Profile (Project)
标记。如果通过以下两种方式分析某个表,则该表具有两个标记:
- 组织级或文件夹级扫描配置
- 项目级扫描配置
如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产。
搜索查询示例
本部分提供示例搜索查询,您可以在 Dataplex 中使用这些查询查找组织或项目中具有特定标记值的数据。
您只能找到您有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页面上的查看代码的角色和权限。
您可以在 Google Cloud 控制台的 Dataplex 搜索页面中输入这些查询。
如需了解如何创建查询,请参阅 Data Catalog 搜索语法。如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资源。
查找使用新标记模板标记的所有表格
tag:PROJECT_ID.TAG_TEMPLATE_ID
替换以下内容:
- PROJECT_ID:包含标记模板的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。
本页面中的成功示例不包含项目 ID,因此您可能会获得与各种发现扫描配置关联的结果。如需将结果限制为特定扫描配置,请将项目 ID 添加到查询中,如以下示例所示。
查找上次在给定日期之前分析的所有表
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - DATE:采用
YYYY-MM-DD
格式的日期,例如2023-01-15
。
查找具有给定表级敏感度分数的所有表
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - SENSITIVITY_SCORE:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。
查找具有给定数据风险级别的所有表
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - DATA_RISK_LEVEL:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。
查找包含给定预测 infoType 的所有表
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - INFOTYPE: infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的预测的 infoType。
查找部分包含给定 infoType 的所有表
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - INFOTYPE: infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的其他 infoType。
查找包含具有给定预测 infoType 的指定列的所有表
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - COLUMN_NAME:BigQuery 表中列的名称。
- INFOTYPE: infoType,例如
PERSON_NAME
。
如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档。
如需了解详情,请参阅指标参考文档中的预测的 infoType。
查找包含具有给定列级敏感度分数的给定列的所有表
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
替换以下内容:
- TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为
sensitive_data_profile
;如果扫描配置针对项目,则为sensitive_data_profile_project
。 - COLUMN_NAME:BigQuery 表中列的名称。
- SENSITIVITY_SCORE:
HIGH
、MODERATE
或LOW
之一。
如需了解详情,请参阅数据风险和敏感度级别。