数据分析简介

借助 Dataplex 数据分析功能,您可以识别 BigQuery 表中列的常见统计特征。这些信息有助于您更有效地了解和分析数据。

典型数据值、数据分布和 null 计数等信息有助于加快分析速度。与数据分类结合使用时,数据分析可以检测数据类别或敏感信息,进而启用访问控制政策。

Dataplex 还会使用这些信息 推荐数据质量检查规则

概念模型

借助 Dataplex,您可以更好地了解数据分析的 创建数据分析扫描

下图显示了 Dataplex 如何扫描数据以生成报告 统计特征。

数据分析扫描会分析表数据以报告统计特征。

一个数据分析扫描与一个 BigQuery 表相关联 并扫描表以生成数据分析结果。数据分析 扫描支持多个配置选项

配置选项

本部分介绍了用于运行数据性能分析扫描的配置选项。

时间安排选项

您可以安排指定频率或按需进行数据分析扫描 通过 API 或 Google Cloud 控制台管理应用。

范围

作为数据分析扫描规范的一部分,您可以指定 作为以下某个选项之一:

  • 完整表:在数据分析扫描中扫描整个表。 抽样、行过滤条件和列过滤条件将应用于整个表格 在计算分析统计信息之前。

  • 增量更改:系统会在数据中扫描您指定的增量数据 配置文件扫描。在表中指定一个 DateTimestamp 列,将其用作增量。通常,这是表格所在的列 已分区在计算性能分析统计信息之前,系统会对增量数据应用抽样、行过滤器和列过滤器。

过滤数据

您可以使用行过滤条件和列过滤条件来过滤要扫描以进行性能分析的数据。使用过滤条件有助于减少执行时间和费用 并排除敏感数据和无用数据。

  • 行过滤条件:借助行过滤条件,您可以重点关注特定时间段内的数据 还是来自某个特定细分(如区域)的出价例如,您可以滤除时间戳早于特定日期的数据。

  • 列过滤条件:列过滤条件可让您包含和排除特定的 列以运行数据分析扫描。

样本数据

借助 Dataplex,您可以指定要从数据中采样的记录百分比,以便运行数据分析扫描。在较小的数据样本上创建数据分析扫描可以缩短查询整个数据集的执行时间并降低费用。

多次数据分析扫描

借助 Dataplex,您可以一次创建多个数据分析扫描 使用 Google Cloud 控制台您最多可以从一个数据集中选择 100 个表 并为每个数据集创建数据分析扫描。了解详情

将扫描结果导出到 BigQuery 表

您可以将数据分析扫描结果导出到 BigQuery 表 以供进一步分析。要自定义报告,您可以将 将 BigQuery 表数据传输到 Looker 信息中心。您可以 通过多次扫描使用相同的结果表来构建汇总报告。

数据分析结果

数据分析结果包含以下值:

列类型 数据分析结果
数值列
  • null 值的百分比。
  • 近似唯一(不同)值所占的百分比。
  • 列中前 10 个最常见的值。该值可以小于 10 列中的唯一值数量小于 10(null 值不会 )。对于每个最常见的值, 当前扫描中扫描的数据中出现的次数。
  • 平均值、标准差、最小值、近似下四分位数、 近似中位数、近似上四分位数和最大值。
字符串列
  • null 值的百分比。
  • 近似唯一(不同)值所占的百分比。
  • 列中前 10 个最常见的值,如果 列中的唯一值数量小于 10。
  • 字符串的平均长度、最小长度和最大长度。
其他非嵌套列(日期、时间、时间戳、二进制等)
  • null 值所占的百分比。
  • 近似唯一(不同)值所占的百分比。
  • 列中前 10 个最常见的值,如果 列中的唯一值数量小于 10。
所有其他嵌套或复杂数据类型列(例如 Record、Array、 JSON)或具有重复模式的任何列。
  • null 值的百分比。

结果包括每次执行时扫描的记录数。

报告和监视

您可以使用以下工具来监控和分析数据分析结果 和方法:

  • 通过 BigQuery 和 Data Catalog 页面中的来源表发布的报告

    如果您已将数据分析扫描配置为在 BigQuery 和 Data Catalog 页面 Google Cloud 控制台,即可查看最新的数据分析扫描 会在任何项目的数据剖析文件标签页中显示这些页面。

    已发布的报告。

  • Dataplex 中每个作业报告的历史记录

    在 Dataplex Profile(配置文件)页面上,您可以查看最新作业和历史作业的详细报告。这包括列级配置文件 信息和配置。

    每个作业报告的历史数据。

  • “分析”标签页

    在 Dataplex Profile 页面上,您可以使用 Analysis(分析) 标签,查看某一列给定统计信息在多个指标中的趋势 配置文件作业。例如,如果您进行的是增量扫描 表示某个值的平均值随时间的变化趋势。

    “分析”标签页。

  • 构建您自己的信息中心或分析数据

    如果您已将数据分析扫描配置为将结果导出或保存到 然后便可使用 BigQuery 表构建自己的信息中心, 等工具,例如 Looker Studio

限制

  • 数据分析结果不会以如下名义发布到 Data Catalog 代码。
  • 包含所有列的 BigQuery 表支持数据分析 但 BIGNUMERIC 除外。为包含 BIGNUMERIC 列的表创建的扫描会导致验证错误,并且无法成功创建。
  • 要扫描的 BigQuery 表必须有 300 列或 。

价格

  • Dataplex 使用高级处理 SKU 来收取数据费用 性能分析要了解详情,请参阅价格

  • 目前还无法将数据分析结果发布到 Data Catalog。当该商品有货时,系统会按照与 目录元数据存储价格。如需了解详情,请参阅价格

  • 数据分析的 Dataplex 高级处理费用按 最低一分钟。

  • 您无需为失败的分析扫描付费。

  • 该费用取决于行数、列数和 表上的数据扫描、分区和聚簇设置,以及 扫描频率

  • 您可以通过以下几种方式降低数据分析扫描的费用:

    • 采样
    • 增量扫描
    • 列过滤
    • 行过滤
  • 将数据分析费用与 Dataplex 中的其他费用分开 高级处理 SKU, Cloud Billing 报告,使用标签 goog-dataplex-workload-type,值为 DATA_PROFILE

  • 如需过滤汇总费用,请使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤