将 Dataplex 数据质量任务与 BigQuery 配合使用

本文档从概念上简要介绍了如何使用 BigQuery 和 Dataplex 运行数据质量任务。

关于使用 BigQuery 的数据质量任务

BigQuery 使用 Dataplex 来定义、安排和运行针对 BigQuery 表的数据质量检查。这些表可以是内部 BigQuery 表、外部表或其他云端的 BigLake 表。

如需了解如何将 Dataplex 与 BigQuery 结合使用,请参阅使用 Dataplex 创建数据质量任务

何时使用 BigQuery 创建 Dataplex 数据质量任务

Dataplex 数据质量任务可以帮助您应对以下场景:

  • 构建数据质量工具。在数据生产流水线中对数据进行验证。
  • 维护数据质量管理。定期监控数据集的质量是否符合您的预期。
  • 跟踪数据质量指标。构建数据质量报告以满足监管要求。

优势

  • 可自定义的规范。您可以使用高度灵活的 YAML 语法来声明您的数据质量规则。
  • 无服务器实现。Dataplex 无需任何基础架构设置。
  • 零复制和自动下推。YAML 检查将转换为 SQL 并下推至 BigQuery,因此无需复制数据。
  • 可调度的数据质量检查。您可以通过 Dataplex 中的无服务器调度程序安排数据质量检查,也可以通过 Cloud Composer 等外部调度程序使用 Dataplex API 进行流水线集成。
  • 代管式体验。Dataplex 使用开源的数据质量引擎 CloudDQ 来运行数据质量检查。不过,Dataplex 提供了无缝的代管式体验来帮助您执行数据质量检查。

工作原理

下图显示了 Dataplex 数据质量任务的工作原理:

图片

  • 用户输入
    • YAML 规范:一个或多个 YAML 文件,用于定义基于规范语法的数据质量规则。您需要将 YAML 文件存储在项目的 Cloud Storage 存储桶中。用户可以同时运行多个规则,并且这些规则可以应用于不同的 BigQuery 表,包括不同数据集或 Google Cloud 项目中的表。该规范支持增量运行,以仅对新数据进行验证。如需创建 YAML 规范,请参阅创建规范文件
    • BigQuery 结果表:用户指定的表,用于存储数据质量验证结果。此表所在的 Google Cloud 项目可与使用 Dataplex 数据质量任务的项目不同。
  • 要验证的表
    • 在 YAML 规范中,您需要指定要根据哪些规则对哪些表进行验证(也称为规则绑定)。这些表可以是 BigQuery 原生表,也可以是 Cloud Storage 中的 BigQuery 外部表。YAML 规范允许您指定位于 Dataplex 区域内部或外部的表。
    • 单次运行中验证的 BigQuery 和 Cloud Storage 表可以属于不同的项目。
  • Dataplex 数据质量任务:Dataplex 数据质量任务配置了由 Google 维护的预构建 CloudDQ PySpark 二进制文件,并接受 YAML 规范和 BigQuery 结果表作为输入。与其他 Dataplex 任务类似,Dataplex 数据质量任务在无服务器 Spark 环境中运行,将 YAML 规范转换为 BigQuery 查询,然后对规范文件中定义的表运行这些查询。

费用

运行 Dataplex 数据质量任务时,您需要为 BigQuery 和 Dataproc Serverless(批处理)用量付费。

  • Dataplex 数据质量任务会将规范文件转换为 BigQuery 查询,并在用户项目中运行这些查询。请参阅 BigQuery 价格

  • Dataplex 使用 Spark 运行由 Google 维护的预构建开源 CloudDQ 驱动程序,将用户规范转换为 BigQuery 查询。请参阅 Dataproc Serverless 价格

使用 Dataplex 整理数据或使用 Dataplex 中的无服务器调度程序安排数据质量检查都是免费的。请参阅 Dataplex 价格

后续步骤