数据分析简介

借助 Dataplex 数据分析功能,您可以识别 BigQuery 表中列的常见统计特征。这些信息有助于您更有效地了解和分析数据。

典型数据值、数据分布和 null 计数等信息有助于加快分析速度。与数据分类结合使用时,数据分析可以检测数据类别或敏感信息,进而启用访问控制政策。

Dataplex 还会使用这些信息推荐数据质量检查规则

概念模型

借助 Dataplex,您可以创建数据分析扫描,从而更好地了解数据的配置文件。

下图展示了 Dataplex 如何扫描数据以生成统计特征报告。

数据分析扫描会分析表数据,以生成统计特征报告。

数据配置文件扫描与一个 BigQuery 表相关联,并会扫描该表以生成数据配置文件结果。数据性能分析扫描支持多种配置选项

配置选项

本部分介绍了用于运行数据性能分析扫描的配置选项。

时间安排选项

您可以通过 API 或 Google Cloud 控制台按指定频率或按需安排数据分析扫描。

范围

在数据性能分析扫描规范中,您可以将作业的范围指定为以下选项之一:

  • 完整表:在数据分析文件扫描中,系统会扫描整个表。在计算性能分析统计信息之前,系统会对整个表应用抽样、行过滤条件和列过滤条件。

  • 增量:系统会在数据分析扫描中扫描您指定的增量数据。在表中指定一个 DateTimestamp 列,将其用作增量。通常,这是用于对表进行分区的列。在计算性能分析统计信息之前,系统会对增量数据应用抽样、行过滤器和列过滤器。

过滤数据

您可以使用行过滤条件和列过滤条件来过滤要扫描以进行性能分析的数据。使用过滤器有助于缩短执行时间和降低费用,并排除敏感数据和无用数据。

  • 行过滤条件:借助行过滤条件,您可以着重分析特定时间段内的数据或特定细分(例如地区)的数据。例如,您可以滤除时间戳早于特定日期的数据。

  • 列过滤器:借助列过滤器,您可以从表中包含和排除特定列,以运行数据分析扫描。

样本数据

借助 Dataplex,您可以指定要从数据中采样的记录百分比,以便运行数据分析扫描。对较小的数据样本创建数据分析扫描可以缩短查询整个数据集的执行时间并降低费用。

多项数据分析扫描

借助 Dataplex,您可以使用 Google Cloud 控制台一次创建多个数据分析扫描。您最多可以从一个数据集中选择 100 张表,并为每个数据集创建数据分析扫描。了解详情

将扫描结果导出到 BigQuery 表

您可以将数据分析扫描结果导出到 BigQuery 表中,以便进一步分析。如需自定义报告,您可以将 BigQuery 表数据连接到 Looker 信息中心。您可以通过在多次扫描中使用相同的结果表来构建汇总报告。

数据分析结果

数据分析结果包括以下值:

列类型 数据分析结果
数值列
  • null 值所占的百分比。
  • 近似唯一(不重复)值的百分比。
  • 列中最常见的 10 个值。如果列中唯一值的数量少于 10 个(不包括 null 值),则可以小于 10。对于这些最常见的值中的每一个,系统都会显示其在当前扫描中扫描的数据中的出现百分比。
  • 平均值、标准差、最小值、近似下四分位数、近似中位数、近似上四分位数和最大值。
字符串列
  • null 值所占的百分比。
  • 近似唯一(不重复)值的百分比。
  • 列中最常见的 10 个值。如果列中的唯一值数量少于 10 个,则可能少于 10 个。
  • 字符串的平均长度、最小长度和最大长度。
其他非嵌套列(日期、时间、时间戳、二进制等)
  • null 值所占的百分比。
  • 近似唯一(不重复)值的百分比。
  • 列中最常见的 10 个值。如果列中的唯一值数量少于 10 个,则可能少于 10 个。
所有其他嵌套或复杂数据类型列(例如“记录”“数组”“JSON”)或采用重复模式的任何列。
  • null 值所占的百分比。

结果包括每次执行时扫描的记录数。

报告和监视

您可以使用以下报告和方法监控和分析数据分析结果:

  • 在 BigQuery 和 Data Catalog 页面中发布的包含源表的报告

    如果您已将数据分析扫描配置为将结果发布到 Google Cloud 控制台中的 BigQuery 和 Data Catalog 页面,则可以从任何项目中,在这些页面的数据分析文件标签页中查看最新的数据分析扫描结果。

    已发布的报告。

  • Dataplex 中的每项作业历史报告

    在 Dataplex Profile(配置文件)页面上,您可以查看最新作业和历史作业的详细报告。其中包括列级配置文件信息和所使用的配置。

    按作业生成的历史报告。

  • “分析”标签页

    在 Dataplex Profile 页面上,您可以使用 Analysis 标签页查看某个列在多个配置文件作业中的给定统计数据的趋势。例如,如果您使用增量扫描,则可以查看某个值的平均值随时间的变化趋势。

    “分析”标签页。

  • 构建自己的信息中心或分析

    如果您已将数据性能分析扫描配置为将结果导出或保存到 BigQuery 表,则可以使用 Looker Studio 等工具构建自己的信息中心。

限制

  • 数据分析结果不会作为标记发布到 Data Catalog。
  • BIGNUMERIC 之外,所有列类型的 BigQuery 表都支持数据分析。为包含 BIGNUMERIC 列的表创建的扫描会导致验证错误,并且无法成功创建。
  • 要扫描的 BigQuery 表必须不超过 300 列。

价格

  • Dataplex 使用高级处理 SKU 对数据分析进行计费。要了解详情,请参阅价格

  • 目前还无法将数据分析结果发布到 Data Catalog。该功能推出后,其存储费用将采用与目录元数据存储费用相同的费率。如需了解详情,请参阅价格

  • 用于数据分析的 Dataplex 高级处理按秒计费,最低计费时间为 1 分钟。

  • 您无需为失败的性能分析扫描付费。

  • 费用取决于行数、列数、扫描的数据量、表的分区和分片设置以及扫描频率。

  • 您可以通过以下几种方式降低数据分析文件扫描的费用:

    • 采样
    • 增量扫描
    • 列过滤
    • 行过滤
  • 如需在 Dataplex 高级处理 SKU 中将数据分析费用与其他费用分开,请在 Cloud Billing 报告中使用标签 goog-dataplex-workload-type 和值 DATA_PROFILE

  • 如需过滤汇总费用,请使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤