数据分析简介

借助 Dataplex 数据分析功能,您可以确定常见的 BigQuery 中列的统计特征 表格。这些信息有助于您更有效地了解和分析数据。

典型数据值、数据分布和 null 计数等信息有助于加快分析速度。与数据分类结合使用时,数据分析功能 检测可相应地实现访问的数据类或敏感信息 控制政策

Dataplex 还会使用这些信息推荐数据质量检查规则

概念模型

借助 Dataplex,您可以创建数据分析扫描,从而更好地了解数据的配置文件。

下图显示了 Dataplex 如何扫描数据以生成报告 统计特征。

数据分析扫描会分析表数据,以生成统计特征报告。

数据配置文件扫描与一个 BigQuery 表相关联,并会扫描该表以生成数据配置文件结果。数据分析 扫描支持多个配置选项

配置选项

本部分介绍了在 Google Cloud 控制台中 数据分析扫描。

时间安排选项

您可以安排指定频率或按需进行数据分析扫描 通过 API 或 Google Cloud 控制台管理应用。

范围

作为数据分析扫描规范的一部分,您可以指定 作为以下某个选项之一:

  • 完整表:在数据分析扫描中扫描整个表。 抽样、行过滤条件和列过滤条件将应用于整个表格 在计算分析统计信息之前。

  • 增量更改:系统会在数据中扫描您指定的增量数据 配置文件扫描。在表中指定一个 DateTimestamp 列,将其用作增量。通常,这是用于对表进行分区的列。抽样、行过滤条件和列过滤条件将应用于 增量数据,然后再计算分析统计信息。

过滤数据

您可以使用行过滤条件来过滤要扫描的数据以进行分析 列过滤条件。使用过滤条件有助于减少执行时间和费用 并排除敏感数据和无用数据。

  • 行过滤条件:借助行过滤条件,您可以重点关注特定时间段内的数据 还是来自某个特定细分(如区域)的出价例如,您可以过滤 时间戳早于特定日期的数据。

  • 列过滤器:借助列过滤器,您可以从表中包含和排除特定列,以运行数据分析扫描。

样本数据

借助 Dataplex,您可以指定要从数据中采样的记录百分比,以运行数据分析扫描。正在创建 对较小数据样本进行数据分析扫描可以 查询整个数据集的执行时间和费用。

多项数据分析扫描

借助 Dataplex,您可以一次创建多个数据分析扫描 使用 Google Cloud 控制台您最多可以从一个数据集中选择 100 个表 并为每个数据集创建数据分析扫描。了解详情

将扫描结果导出到 BigQuery 表

您可以将数据分析扫描结果导出到 BigQuery 表,以便进一步分析。如需自定义报告,您可以将 BigQuery 表数据连接到 Looker 信息中心。您可以 通过多次扫描使用相同的结果表来构建汇总报告。

数据分析结果

数据分析结果包括以下值:

列类型 数据分析结果
数值列
  • null 值的百分比。
  • 近似唯一(不同)值所占的百分比。
  • 列中前 10 个最常见的值。该值可以小于 10 列中的唯一值数量小于 10(null 值不会 )。对于每个最常见的值, 当前扫描中扫描的数据中出现的次数。
  • 平均值、标准差、最小值、近似下四分位数、 近似中位数、近似上四分位数和最大值。
字符串列
  • null 值的百分比。
  • 近似唯一(不重复)值的百分比。
  • 列中最常见的 10 个值。如果列中的唯一值数量少于 10 个,则可能少于 10 个。
  • 字符串的平均长度、最小长度和最大长度。
其他非嵌套列(日期、时间、时间戳、二进制等)
  • null 值所占的百分比。
  • 近似唯一(不同)值所占的百分比。
  • 列中最常见的 10 个值。如果列中唯一值的数量少于 10 个,则可能少于 10 个。
所有其他嵌套或复杂数据类型列(例如 Record、Array、 JSON)或任何采用 repeated 模式的列。
  • null 值的百分比。

结果包括每次执行时扫描的记录数。

报告和监视

您可以使用以下工具来监控和分析数据分析结果 和方法:

  • 通过 BigQuery 和 Data Catalog 页面中的来源表发布的报告

    如果您已将数据分析扫描配置为在 BigQuery 和 Data Catalog 页面 Google Cloud 控制台,即可查看最新的数据分析扫描 会在任何项目的数据剖析文件标签页中显示这些页面。

    已发布的报告。

  • Dataplex 中的每项作业历史报告

    在 Dataplex Profile(配置文件)页面上,您可以查看最新作业和历史作业的详细报告。其中包括列级配置文件信息和所使用的配置。

    每个作业报告的历史数据。

  • “分析”标签页

    在 Dataplex Profile 页面上,您可以使用 Analysis(分析) 标签,查看某一列给定统计信息在多个指标中的趋势 配置文件作业。例如,如果您使用增量扫描,则可以查看某个值的平均值随时间的变化趋势。

    “分析”标签页。

  • 构建您自己的信息中心或分析数据

    如果您已将数据分析扫描配置为将结果导出或保存到 然后便可使用 BigQuery 表构建自己的信息中心, 等工具,例如 Looker Studio

限制

  • 数据分析结果不会以如下名义发布到 Data Catalog 代码。
  • BIGNUMERIC 之外,所有列类型的 BigQuery 表都支持数据分析。为包含 BIGNUMERIC 列的表创建的扫描会导致验证错误,并且无法成功创建。
  • 要扫描的 BigQuery 表必须不超过 300 列。

价格

  • Dataplex 使用高级处理 SKU 来收取数据费用 性能分析要了解详情,请参阅价格

  • 目前还无法将数据分析结果发布到 Data Catalog。该功能推出后,其存储费率将与目录元数据存储费率相同。如需了解详情,请参阅价格

  • 数据分析的 Dataplex 高级处理费用按 最低一分钟。

  • 您无需为失败的性能分析扫描付费。

  • 费用取决于行数、列数、扫描的数据量、表的分区和分片设置以及扫描频率。

  • 您可以通过以下几种方式降低数据分析扫描的费用:

    • 采样
    • 增量扫描
    • 列过滤
    • 行过滤
  • 将数据分析费用与 Dataplex 中的其他费用分开 高级处理 SKU,请访问 Cloud Billing 报告,使用标签 goog-dataplex-workload-type,值为 DATA_PROFILE

  • 如需过滤汇总费用,请使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤