分析数据分析

如果您配置了敏感数据发现服务,将所有成功生成的数据分析文件发送到 BigQuery,则可以查询这些数据分析文件,以获取有关数据的数据分析。您还可以使用 Looker Studio 等可视化工具根据业务需求构建自定义报告。或者,您也可以使用敏感数据保护提供的预制报告,对其进行调整,并根据需要进行共享。

本页面提供示例 SQL 查询,可用于详细了解您的数据配置文件。此外还介绍了如何在 Looker Studio 中直观呈现数据剖析文件。

如需详细了解数据分析文件,请参阅数据分析文件

准备工作

本页面假定您已在组织文件夹项目级层配置性能剖析。在您的配置中,请务必点击将数据分析文件副本保存到 BigQuery 切换开关,来开启数据分析文件导出功能。

在本文档中,包含导出数据配置文件的表称为“输出表”。

确保项目 ID、数据集 ID 和输出表的表 ID 随时可用。您需要它们才能执行本页面中的操作。

latest 视图

当敏感数据保护将数据配置文件导出到输出表时,它还会创建 latest 视图。此视图是一个预先过滤的虚拟表,其中仅包含您的数据配置文件的最新快照。latest 视图与输出表的架构相同,因此您可以在 SQL 查询和 Looker Studio 报告中可以互换使用这两种视图。结果可能会有所不同,因为输出表包含数据配置文件的较旧快照。

latest 视图存储在与输出表相同的位置。其名称采用以下格式:

OUTPUT_TABLE_latest_VERSION

替换以下内容:

  • OUTPUT_TABLE:包含导出数据配置文件的表的 ID。
  • VERSION:视图的版本号。

例如,如果输出表的名称为 table-profile,则 latest 视图的名称应为 table-profile_latest_v1

最新视图

在 SQL 查询中使用 latest 视图时,请使用视图的完整名称,包括项目 ID、数据集 ID、表 ID 和后缀,例如 myproject.mydataset.table-profile_latest_v1

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

在输出表和 latest 视图之间进行选择

latest 视图仅包含最新的数据分析快照,而输出表包含所有数据分析快照,包括已过时的快照。例如,对输出表的查询可以返回同一列的多个列数据分析文件 - 每次分析该列时一个。

在 SQL 查询或 Looker Studio 报告中选择使用输出表和 latest 视图时,请考虑以下事项:

  • 如果您有已重新分析的表,而您只想查看最新的分析而不是旧版本,则 latest 视图会非常有用。也就是说,您希望查看已分析数据的当前状态。

  • 如果您想获取分析数据的历史视图,输出表会非常有用。例如,您要尝试确定您的组织是否曾存储过特定的 infoType,或者您希望查看特定数据分析文件经历的更改。

示例 SQL 查询

本部分提供了在分析数据配置文件时可以使用的示例查询。如需运行这些查询,请参阅运行交互式查询

在以下示例中,将 TABLE_OR_VIEW 替换为以下项之一:

  • 输出表的名称,即包含导出数据配置文件的表,例如 myproject.mydataset.table-profile
  • 输出表的 latest 视图的名称,例如 myproject.mydataset.table-profile_latest_v1

无论哪种情况,您都必须添加项目 ID 和数据集 ID。

如需了解详情,请参阅本页面上的在输出表和 latest 视图之间进行选择

如需排查遇到的任何错误,请参阅错误消息

列出自由文本得分较高且有其他 infoType 匹配项的证据的所有列

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

如需了解如何修复这些发现结果,请参阅高自由文本得分

如需详细了解自由文本得分其他 infoType 指标,请参阅列数据分析文件

列出包含信用卡号列的所有表

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER 是代表信用卡号的内置 infoType

如需了解如何修复这些发现结果,请参阅高数据风险

列出包含信用卡号、美国社会保障号和人名列的表个人资料

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

此查询使用以下内置 infoType

  • CREDIT_CARD_NUMBER:表示信用卡号
  • PERSON_NAME:表示个人的全名
  • US_SOCIAL_SECURITY_NUMBER 表示美国社会保障号

如需了解如何修复这些发现结果,请参阅高数据风险

在 Looker Studio 中使用数据分析文件

如需在 Looker 数据洞察中直观呈现数据分析文件,您可以使用预制报告,也可以创建自己的报告

使用预制报告

敏感数据保护提供了预制的 Looker Studio 报告,其中突出显示了有关数据分析的丰富数据洞见。敏感数据保护信息中心是一个多页报告,可让您快速地大致了解数据分析文件,包括按风险、按 infoType 和位置细分的数据。浏览其他标签页,按地理区域和折叠状态风险查看视图,或深入查看特定指标。您可以直接使用此预制报告,也可以根据需要进行自定义。这是预制报告的推荐版本。

如需查看包含您的数据的预制报告,请在以下网址中输入所需的值。然后,将得到的网址复制到您的浏览器。

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

替换以下内容:

  • PROJECT_ID:包含输出表的项目。
  • DATASET_ID:包含输出表的数据集。
  • TABLE_OR_VIEW:以下项之一:

    • 输出表的名称,即包含导出的数据分析文件的表,例如 myproject.mydataset.table-profile
    • 输出表的 latest 视图的名称,例如 myproject.mydataset.table-profile_latest_v1

    如需了解详情,请参阅本页面上的在输出表和 latest 视图之间进行选择

Looker Studio 可能需要几分钟时间来加载包含您的数据的报告。

在以下示例中,信息中心显示,全球多个国家/地区同时存在低敏感度和高敏感度数据。

预制报告

早期版本的预制报告

预制报告的第一版仍可通过以下地址获取:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

创建报告

借助 Looker Studio,您可以创建互动式报告。在本部分中,您将基于导出到 BigQuery 中的输出表的数据分析文件,在 Looker Studio 中创建简单的表报告。

请确保您已准备好输出表或 latest 视图的项目 ID、数据集 ID 和表 ID。您需要使用它们来执行此过程。

以下示例展示了如何创建包含表格的报告,其中会显示数据配置文件中报告的每个 infoType 及其对应的频率。

一般来说,通过 Looker 数据洞察访问 BigQuery 时会产生 BigQuery 使用费。如需了解详情,请参阅使用 Looker 数据洞察直观呈现 BigQuery 数据

若要创建报告,请执行以下操作:

  1. 打开 Looker Studio 并登录。
  2. 点击空白报告
  3. 连接到数据标签页上,点击 BigQuery 卡。
  4. 如果系统提示,请授权 Looker Studio 访问您的 BigQuery 项目。
  5. 连接到您的 BigQuery 数据:

    1. 对于项目,选择包含输出表的项目。您可以在近期的项目我的项目共享的项目标签页中搜索项目。
    2. 对于数据集,选择包含输出表的数据集。
    3. 部分,选择输出表或输出表的 latest 视图

      如需了解详情,请参阅本页面上的在输出表和 latest 视图之间进行选择

    4. 点击添加

    5. 在弹出的对话框中,点击添加到报告

      此时会创建报告。此时会出现一个表,其中包含表数据分析文件及其相应的记录计数。

  6. 如需添加一个表格来显示报告的每个 infoType 及其相应频率(记录计数),请按以下步骤操作:

    1. 点击添加图表
    2. 选择一种表格样式。
    3. 点击您想放置图表的区域。

      图表会以表格格式显示。

    4. 根据需要调整表格大小。

      只要选中相应的表,其属性就会显示在图表 > 表格窗格中。

    5. 图表 > 表格窗格的数据标签页的维度字段中,移除现有维度。

    6. 点击添加维度

    7. 搜索 column_profile.column_info_type.info_type.name,然后选择它。

    生成的表类似于以下内容:

    显示检测到的 infoType 及其相应频率的表

详细了解 Looker Studio 中的表

后续步骤

了解您可以采取哪些措施来remediate数据分析发现结果。