自动数据质量概览

本文档介绍了 Dataplex 自动数据质量,可让您定义和衡量数据质量。您可以自动执行数据扫描,根据定义的规则验证数据,以及在数据不符合质量要求时记录提醒。您可以将数据质量规则和部署作为代码进行管理,从而提高数据生产流水线的完整性。

如需开始使用,您可以使用 Dataplex 数据分析规则建议,或在 Google Cloud 控制台中构建自定义规则。Dataplex 提供与 Dataplex 自动数据质量功能相集成的监控、问题排查和 Cloud Logging 提醒功能。

概念模型

数据质量扫描将质量规则应用于表数据以报告结果。

数据扫描是一项 Dataplex 作业,它会对 BigQuery 和 Cloud Storage 中的数据进行采样并推断各种类型的元数据。如需使用自动数据质量衡量表的质量,请创建一个类型为 data qualityDataScan 对象。扫描仅在一个 BigQuery 表上运行。扫描使用 Google 租户项目中的资源,因此您无需设置自己的基础架构。

创建和使用数据质量扫描包括以下步骤:

  1. 定义数据质量规则
  2. 配置规则执行
  3. 分析数据质量扫描结果
  4. 设置监控和提醒
  5. 排查数据质量故障问题

规则定义

与数据质量扫描相关的数据质量规则定义了数据预期。您可以通过以下方式创建数据质量规则:

预定义规则

Dataplex 支持两类预定义规则:行级规则或聚合规则。

行级

对于行级类别规则,预期会应用于每个数据行。每一行都有独立的条件,通过或失败该条件。例如 column_A_value < 1

行级检查要求您指定通过阈值。如果通过规则的行数百分比低于阈值,则表示规则失败。

汇总

对于汇总规则,预期值将应用于整个数据中汇总的单个值。例如:Avg(someCol) >= 10若要通过,检查的计算结果必须为布尔值 true。汇总规则不会为每行提供独立的通过或失败计数。

对于这两种规则类别,您都可以设置以下参数:

  • 规则适用的列。
  • 一组预定义维度中的一个维度

下表列出了受支持的行级规则和汇总规则类型:

规则类型
(Google Cloud 控制台中的名称)
行级或汇总规则 说明 支持的列类型 规则专用参数
RangeExpectation
范围检查
行级 检查该值是否介于最小值和最大值之间。 所有数字、日期和时间戳类型的列。 必需
  • 及格阈值百分比
  • meanminmax 值:请至少指定一个值。
可选
  • 启用 strict min:如果启用,规则检查会使用“>”而不是“>=”。
  • 启用 strict max:如果启用,规则检查将使用“<”而不是“<=”。
  • 启用 ignore null:如果启用,系统会在规则检查中忽略 null 值。
NonNullExpectation
Null 检查
行级 验证列值不是 NULL。 所有受支持的列类型。 必需
  • 及格阈值百分比。
SetExpectation
设置检查
行级 检查某列中的值是否为某个集中的指定值。 RecordStruct 之外的所有受支持的列类型。 必需
  • 要根据其检查的字符串值集。
  • 及格阈值百分比。
可选
  • 启用 ignore null:如果启用,系统会在规则检查中忽略 null 值。
RegexExpectation
正则表达式检查
行级 根据指定的正则表达式检查值。 字符串 必需
  • 用于检查的正则表达式模式。
  • 及格阈值百分比。
  • 注意:Google 标准 SQL 通过 re2 库提供正则表达式支持;如需了解正则表达式的语法,请参阅该文档。
可选
  • 启用 ignore null:如果启用,系统会在规则检查中忽略 null 值。
Uniqueness
唯一性检查
汇总 检查某列中的所有值是否唯一。 RecordStruct 之外的所有受支持的列类型。 必需
  • 支持的参数中的列和维度。
可选
  • 启用 ignore null:如果启用,系统会在规则检查中忽略 null 值。
StatisticRangeExpectation
统计信息检查
汇总 检查给定的统计度量值是否与预期范围相符。 所有支持的数字列类型。 必需
  • meanminmax 值:请至少指定一个值。
可选
  • 启用 strict min:如果启用,规则检查会使用“>”而不是“>=”。
  • 启用 strict max:如果启用,规则检查将使用“<”而不是“<=”。

支持的自定义 SQL 规则类型

SQL 规则可让您灵活地使用自定义逻辑扩展验证。这些规则有以下几种类型。

规则类型 行级或汇总规则 说明 支持的列类型 规则专用参数 示例
行条件 行级

通过在 WHERE 子句中定义 SQL 表达式,为每一行指定预期值。每行 SQL 表达式的求值结果应为 true(通过)或 false(失败)。Dataplex 会计算符合此预期的行数的百分比,并将此值与通过的阈值百分比进行比较,以确定规则的成功还是失败。

表达式可以包含对另一个表的引用,例如,用于创建参照完整性检查。

所有列 必需
  • 要使用的 SQL 条件
  • 及格阈值百分比
  • 维度
可选
  • 要与此规则关联的列。
grossWeight <= netWeight
表条件
(聚合 SQL 表达式)
汇总

这些规则针对每个表执行一次。提供一个计算结果为布尔值 true(通过)或 false(失败)的 SQL 表达式。

SQL 表达式可以使用表达式子查询包含对另一个表的引用。

所有列 必需
  • 要使用的 SQL 条件
  • 维度
可选
  • 要与此规则关联的列

简单的汇总示例:
avg(price) > 100

使用表达式子查询比较不同表中的值:
(SELECT COUNT(*) FROM `example_project.example_dataset.different-table`) < COUNT(*)

SQL 断言 汇总

断言规则使用数据质量查询来查找不符合查询中指定的一个或多个条件的行。提供一个 SQL 语句,该语句被评估为返回与无效状态匹配的行。如果查询返回任何行,则规则将失败。

在 SQL 语句中省略结尾的分号。

SQL 语句可以使用表达式子查询包含对另一个表的引用。

所有列 必需
  • 用于检查无效状态的 SQL 语句
  • 维度
可选
  • 要与此规则关联的列。

为了确保 discount_pct 不超过 100 这一简单汇总示例:
SELECT * FROM example_project.example_dataset.table WHERE discount_pct > 100

使用表达式子查询比较不同表中的值:
SELECT * FROM `example_project.example_dataset.different-table` WHERE gross_weight > (SELECT avg(gross_weight) FROM `example_project.example_dataset.different-table`)

如需查看示例规则,请参阅自动数据质量规则示例

如需了解支持的 SQL 函数,请参阅 GoogleSQL 参考文档

维度

借助维度,您可以汇总用于监控和提醒的多条数据质量规则的结果。您必须将每条数据质量规则与维度相关联。Dataplex 支持以下维度:

  • 时效性
  • 数据量
  • 完整性
  • 有效性
  • 一致性
  • 准确率
  • 唯一性

规则中输入的内容

所有值参数都将以字符串值的形式传递给 API。Dataplex 要求输入遵循 BigQuery 指定的格式

二进制类型的参数可以作为 base64 编码的字符串进行传递。

类型 支持的格式 示例
二元 Base64 编码值 YXBwbGU=
时间戳 YYYY-[M]M-[D]D[( |T)[H]H:[M]M:[S]S[.F]] [时区]
OR YYYY-[M]M-[D]D[( |T)[H]H:[M]M:[S]S[.F]][time_zone_offset]
2014-09-27 12:30:00.45-08
日期 YYYY-M[M]-D[D] 2014-09-27
时间 [H]高:[M]M:[S]S[.DDDDDD] 12:30:00.45
DateTime YYYY-[M]M-[D]D [[H]H:[M]M:[S]S[.DDDDDD]] 2014-09-27 12:30:00.45

数据引用参数

创建自定义 SQL 规则时,您可以在规则中使用数据引用参数 ${data()} 来引用数据源表及其所有前提条件过滤条件,而无需明确提及源表及其过滤条件。Dataplex 将该参数解释为对源表及其过滤条件的引用。前提条件过滤条件的示例包括行过滤条件、抽样百分比过滤条件和增量过滤条件。

例如,假设您有一个名为 my_project_id.dim_dataset.dim_currency 的数据源表。您想要运行一次增量数据质量扫描,仅扫描每日新数据。对表应用了用于过滤今天条目的行过滤条件 transaction_timestamp >= current_date()

用于查找今天具有 discount_pct 的行的自定义 SQL 规则如下所示:

discount_pct IN (SELECT discount_pct FROM my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date())

如果您使用数据引用参数,则可以简化规则。请将该表及其前提条件过滤条件的内容替换为 ${data()} 参数:

discount_pct IN (SELECT discount_pct FROM ${data()})

Dataplex 将 ${data()} 参数解读为对包含当前条目的数据源表 my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date() 的引用。在此示例中,数据引用参数仅引用增量数据。

${data()} 参数区分大小写。

在子查询中使用别名来引用源表中的列时,可以使用数据引用参数来引用源表,也可以省略表引用。请勿在 WHERE 子句中使用直接表引用来引用源表中的列。

推荐:

  • 使用数据引用参数来引用源表:

    discount_pct IN (
    SELECT discount_pct FROM
    `my_project_id.dim_dataset.dim_currency` AS temp-table
    WHERE
    temp-table.transaction_timestamp = ${data()}.timestamp
    )
    
  • 省略表引用:

    discount_pct IN (
    SELECT discount_pct FROM
    `my_project_id.dim_dataset.dim_currency` AS temp-table
    WHERE
    temp-table.transaction_timestamp = timestamp
    )
    

不推荐:

  • 请勿使用直接表引用来引用源表中的列:

    discount_pct IN (
    SELECT discount_pct FROM
    `my_project_id.dim_dataset.dim_currency` AS temp-table
    WHERE
    temp-table.transaction_timestamp = `my_project_id.dim_dataset.dim_currency`.timestamp
    )
    

规则执行

您可以安排数据质量扫描以特定的时间间隔运行,也可以按需运行扫描。如需管理数据质量扫描,您可以使用 API 或 Google Cloud 控制台。

当您运行数据质量扫描时,Dataplex 会创建一个作业。作为数据质量扫描规范的一部分,您可以将作业范围指定为以下其中一项:

全桌
每个作业都会验证整个表。
增量
每个作业都会验证增量数据。如需确定增量,请在表中提供可用作标记的 Date / Timestamp 列。通常,这是对表进行分区的列。

过滤数据

Dataplex 可以使用行过滤条件来过滤要扫描的数据,以确保数据质量。通过创建行过滤条件,您可以重点关注特定时间段或特定细分(例如特定区域)内的数据。使用过滤条件可以减少执行时间和费用,例如,过滤掉特定日期之前带有时间戳的数据。

样本数据

在 Dataplex 中,您可以指定数据中用于采样的记录百分比,以运行数据质量扫描。针对较小的数据样本创建数据质量扫描可以缩短执行时间并降低查询整个数据集的成本。

数据质量扫描结果

数据质量扫描结果可在 Dataplex 中查看。您还可以使用以下方法查看和分析扫描结果:

  • 将结果导出到 BigQuery

    您可以将扫描结果导出到 BigQuery 表以供进一步分析。如需自定义报告,您可以将 BigQuery 表数据关联到 Looker 信息中心。您可以在多次扫描中使用同一结果表来构建汇总报告。

  • 在 Google Cloud 控制台中发布结果

    您可以在 Google Cloud 控制台中将数据质量扫描结果发布到源表的 BigQuery 和 Data Catalog 页面。源表的数据质量标签页上提供了最新的扫描结果。

  • 查看数据质量得分

    每个扫描结果都会提供数据质量得分,指示通过的规则的百分比。得分在整体作业级别、列级别(如果针对某个列评估规则)和维度级别报告。使用数据质量得分可以跨表或列对数据质量进行标准化、跟踪趋势以及识别不符合质量要求的数据。

如需了解详情,请参阅查看数据质量扫描结果

监控和提醒

您可以使用以下方法监控和获取有关数据质量扫描的提醒:

  • 在 Cloud Logging 中设置提醒

    您可以在日志浏览器中使用 data_scandata_quality_scan_rule_result 日志来监控数据质量作业。

    对于每个数据质量作业,data_scan_type 字段设置为 DATA_QUALITYdata_scan 日志包含以下信息:

    • 用于数据扫描的数据源。
    • 作业执行详细信息,例如创建时间、开始时间、结束时间和作业状态。
    • 数据质量作业的结果:通过或失败。
    • 维度级通过或失败。

    每个成功的作业都包含一个 data_quality_scan_rule_result 日志,其中包含有关该作业中每条规则的以下详细信息:

    • 配置信息,例如规则名称、规则类型、评估类型和维度。
    • 结果信息,例如通过或失败、总行数、通过的行数、null 行数和已评估的行数。

    您可以通过 API 和 Google Cloud 控制台获取日志中的信息。您可以使用此信息来设置提醒。如需了解详情,请参阅在 Logging 中设置提醒

  • 发送电子邮件通知

    您可以发送电子邮件通知,提醒用户数据质量作业的状态和结果。通知适用于以下情况:

    • 数据质量得分低于指定的目标得分
    • 作业失败
    • 作业已完成

    您可以在创建数据质量扫描时配置通知。

排查数据质量故障问题

当规则失败时,Dataplex 会生成查询来获取失败的记录。运行此查询可查看与您的规则不匹配的记录。如需了解详情,请参阅排查数据质量故障

限制

  • 数据质量扫描结果不会作为标记发布到 Data Catalog。
  • gcloud CLI 不支持规则建议。
  • 维度的选择固定为预定义的七个维度之一。
  • 每次数据质量扫描的规则数量上限为 1,000。
  • 只有 gcloud CLI 和 API 支持电子邮件通知。
  • 只有 API 支持在列级别报告的数据质量得分。

价格

  • Dataplex 使用高级处理 SKU 来对自动数据质量收费。如需了解详情,请参阅 Dataplex 价格

  • 目前尚不支持将自动数据质量结果发布到 Catalog。当这些内容可供使用时,我们会按照与 Catalog 元数据存储价格相同的费率收费。如需了解详情,请参阅价格

  • 自动数据质量的 Dataplex 高级处理按秒计费,起步计费时间为一分钟。

  • 数据质量扫描失败不会产生任何费用。

  • 此费用取决于行数、列数、扫描的数据量、数据质量规则配置、表的分区和聚簇设置以及 GSA 的频率。

  • 您可以通过以下几种方式降低自动数据质量扫描的费用:

  • 请将数据质量费用与 Dataplex 高级处理 SKU 中的其他费用分开,请使用值为 DATA_QUALITY 的标签 goog-dataplex-workload-type

  • 过滤总费用。使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤