通过 Dataplex 数据质量任务,您可以跨 BigQuery 和 Cloud Storage 中的表定义和运行数据质量检查。通过 Dataplex 数据质量任务,您还可以在 BigQuery 环境中应用常规数据控制。
何时创建 Dataplex 数据质量任务
Dataplex 数据质量任务可以帮助您执行以下操作:
- 在数据生产流水线中对数据进行验证。
- 定期监控数据集的质量是否符合您的预期。
- 构建数据质量报告以满足监管要求。
优势
- 可自定义的规范。您可以使用高度灵活的 YAML 语法来声明您的数据质量规则。
- 无服务器实现。Dataplex 无需任何基础架构设置。
- 零复制和自动下推。YAML 检查将转换为 SQL 并下推至 BigQuery,因此无需复制数据。
- 可调度的数据质量检查。您可以通过 Dataplex 中的无服务器调度程序安排数据质量检查,也可以通过 Cloud Composer 等外部调度程序使用 Dataplex API 进行流水线集成。
- 代管式体验。Dataplex 使用开源的数据质量引擎 CloudDQ 来运行数据质量检查。不过,Dataplex 提供了无缝的代管式体验来帮助您执行数据质量检查。
工作原理
下图显示了 Dataplex 数据质量任务的工作原理:
- 用户输入
- YAML 规范:一个或多个 YAML 文件,用于定义基于规范语法的数据质量规则。您需要将 YAML 文件存储在项目的 Cloud Storage 存储桶中。用户可以同时运行多个规则,并且这些规则可以应用于不同的 BigQuery 表,包括不同数据集或 Google Cloud 项目中的表。该规范支持增量运行,以仅对新数据进行验证。如需创建 YAML 规范,请参阅创建规范文件。
- BigQuery 结果表:用户指定的表,用于存储数据质量验证结果。此表所在的 Google Cloud 项目可与使用 Dataplex 数据质量任务的项目不同。
- 要验证的表
- 在 YAML 规范中,您需要指定要根据哪些规则对哪些表进行验证(也称为规则绑定)。这些表可以是 BigQuery 原生表,也可以是 Cloud Storage 中的 BigQuery 外部表。YAML 规范允许您指定位于 Dataplex 区域内部或外部的表。
- 单次运行中验证的 BigQuery 和 Cloud Storage 表可以属于不同的项目。
- Dataplex 数据质量任务:Dataplex 数据质量任务使用预构建的、维护的 CloudDQ PySpark 二进制文件进行配置,并将 YAML 规范和 BigQuery 结果表作为输入。与其他 Dataplex 任务类似,Dataplex 数据质量任务在无服务器 Spark 环境中运行,将 YAML 规范转换为 BigQuery 查询,然后对规范文件中定义的表运行这些查询。
费用
运行 Dataplex 数据质量任务时,您需要为 BigQuery 和 Dataproc Serverless(批处理)用量付费。
Dataplex 数据质量任务会将规范文件转换为 BigQuery 查询,并在用户项目中运行这些查询。请参阅 BigQuery 价格。
Dataplex 使用 Spark 运行由 Google 维护的预构建开源 CloudDQ 驱动程序,将用户规范转换为 BigQuery 查询。请参阅 Dataproc Serverless 价格。
使用 Dataplex 整理数据或使用 Dataplex 中的无服务器调度程序安排数据质量检查都是免费的。请参阅 Dataplex 价格。