根据数据分析中的数据洞见标记 Dataplex 中的表

本页面介绍了如何在敏感数据保护分析 BigQuery 表后,自动将 Dataplex 标记应用于这些表。本页面还提供了示例查询,您可以使用这些查询在整个组织和项目中查找已标记的数据。

如果您希望使用从敏感数据保护数据分析中收集的数据洞见来丰富 Dataplex 中手动挑选的元数据,此功能非常有用。生成的代码包含以下数据分析:

  • 在表的列中检测到的信息类型 (infoTypes)
  • 计算出的表格敏感度级别
  • 计算出的表格数据风险等级

敏感数据保护数据分析中的数据分析可帮助您使用 Dataplex 发现组织中的敏感数据和高风险数据。这些数据分析可帮助您就如何管理和治理数据做出明智的决策。

如果您想要将检查作业(而非数据分析操作)的结果发送到 Dataplex,请改为参阅将敏感数据保护检查结果发送到 Data Catalog

数据分析文件简介

您可以配置敏感数据保护,以自动生成有关组织、文件夹或项目中的数据的配置文件。数据分析文件包含有关数据的指标和元数据,可帮助您确定敏感数据和高风险数据所在的位置。敏感数据保护会以各种详细级别报告这些指标。如需了解您可以分析的数据类型,请参阅支持的资源

Dataplex 和 Data Catalog 简介

Dataplex 是一项 Google Cloud 服务,它可以统一分布式数据,并自动对该数据进行数据管理和治理。Data Catalog 是 Dataplex 中的一项全代管式可伸缩元数据管理服务。

借助 Data Catalog,您可以使用标记和标记模板将业务元数据附加到数据。然后,您可以在统一服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅标记和标记模板

运作方式

如果您的发现扫描配置启用了以代码形式发送到 Dataplex 操作,则敏感数据保护会在每次分析您的数据时执行以下操作。此操作仅适用于新的和更新后的商家资料。 未更新的现有配置文件不会发送到 Dataplex。

  1. 创建一个专用标记模板,其中包含将附加到 BigQuery 表的标记的架构。如需了解标记模板的名称、ID 和位置,请参阅标记模板详细信息

    只有具有适当角色和权限的主账号才能查看标记模板。

  2. 为您分析的每个 BigQuery 表创建一个标记。代码以新创建的代码模板为基础。

    例如,附加到表的结果标记可以具有以下元数据:

    显示名称
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

如果通过以下两种方式分析某个表,则该表具有两个标记:

  • 组织级或文件夹级扫描配置
  • 项目级扫描配置

标记表后,您可以在 Dataplex 中搜索组织或项目中具有特定标记值的所有数据。

标记模板详细信息

模板名称、模板 ID 和存储新标记模板的项目取决于扫描配置所属的资源。

  • 如果扫描配置是组织级或文件夹级配置,则标记模板存储在服务代理容器中。此标记模板的名称为 Sensitive Data Profile。其模板 ID 为 sensitive_data_profile
  • 如果扫描配置是项目级配置,则标记模板会存储在要分析的项目中。此标记模板的名称为 Sensitive Data Profile (Project)。其模板 ID 为 sensitive_data_profile_project

价格

如需了解其他 Google Cloud 服务如何向您收取导出数据配置文件的费用,请参阅导出数据配置文件的价格

根据数据分析文件自动标记 BigQuery 表

  1. 创建扫描配置。或者,您也可以修改现有的扫描配置。

  2. 添加操作步骤中,确保已启用以标记形式发送到 Dataplex

    • 如果您要创建扫描配置,则默认情况下会启用此功能。
    • 如果您要修改扫描配置,则必须启用此操作。

对数据进行性能剖析和标记后,您可以开始在 Dataplex 中搜索已标记的数据。

查看代码的角色和权限

Dataplex 搜索结果仅显示您有权访问的数据。您需要以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。

目的 预定义角色 相关权限
查看不公开标记模板 Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
查看应用于 BigQuery 表的标记 BigQuery Metadata Viewer (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

如需详细了解 Dataplex 角色,请参阅用于查看公共和私有标记的角色

如需了解如何授予预定义角色,请参阅授予单个角色。如果您想使用自定义角色而不是预定义角色,请确保自定义角色具有相关权限。如需了解详情,请参阅创建自定义角色

查找生成的代码模板

  1. 在 Google Cloud 控制台中,转到 Dataplex 代码模板页面。

    转到“标记模板”

  2. 在列表中,找到相应代码模板。如需了解标记模板的名称、ID 和位置,请参阅标记模板详细信息

  3. 可选:如需查找由给定发现扫描配置生成的标记模板,请在过滤条件字段中输入以下内容:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project

查找为给定表数据分析文件生成的标记

  1. 在 Google Cloud 控制台中,转到 Dataplex 搜索页面。

    转到搜索

  2. 搜索字段中,输入以下内容:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • TABLE_ID:所分析表的 ID。
    • PROJECT_ID:包含标记模板的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  3. 在显示的列表中,点击表格 ID。系统会显示 BigQuery 表的详细信息及其附加的任何 Sensitive Data ProfileSensitive Data Profile (Project) 标记。

    如果通过以下两种方式分析某个表,则该表具有两个标记:

    • 组织级或文件夹级扫描配置
    • 项目级扫描配置

如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

搜索查询示例

本部分提供示例搜索查询,您可以在 Dataplex 中使用这些查询查找组织或项目中具有特定标记值的数据。

您只能找到您有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页面上的查看代码的角色和权限

您可以在 Google Cloud 控制台的 Dataplex 搜索页面中输入这些查询。

转到搜索

如需了解如何创建查询,请参阅 Data Catalog 搜索语法。如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资源

查找使用新标记模板标记的所有表格

tag:PROJECT_ID.TAG_TEMPLATE_ID

替换以下内容:

  • PROJECT_ID:包含标记模板的项目的 ID。如果您在组织或文件夹级层分析数据,请输入服务代理容器的项目 ID。
  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project

本页面中的成功示例不包含项目 ID,因此您可能会获得与各种发现扫描配置关联的结果。如需将结果限制为特定扫描配置,请将项目 ID 添加到查询中,如以下示例所示。

查找上次在给定日期之前分析的所有表

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • DATE:采用 YYYY-MM-DD 格式的日期,例如 2023-01-15

查找具有给定表级敏感度分数的所有表

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找具有给定数据风险级别的所有表

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • DATA_RISK_LEVELHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别

查找包含给定预测 infoType 的所有表

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • INFOTYPE: infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的预测的 infoType

查找部分包含给定 infoType 的所有表

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • INFOTYPE: infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的其他 infoType

查找包含具有给定预测 infoType 的指定列的所有表

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中列的名称。
  • INFOTYPE: infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 InfoType 检测器参考文档

如需了解详情,请参阅指标参考文档中的预测的 infoType

查找包含具有给定列级敏感度分数的给定列的所有表

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置针对组织或文件夹,则为 sensitive_data_profile;如果扫描配置针对项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中列的名称。
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度级别