数据沿袭简介

数据沿袭是一项 Dataplex 功能,可让您跟踪数据在系统中的移动方式:数据的来源、传入的位置以及已对数据应用哪些转换。

为什么需要数据沿袭?

处理大型数据集通常涉及将数据转换为针对特定项目需求量身定制的实体:文本文件、表、报告、信息中心、模型。

例如,假设您有一个网店,您在单个 SQL 表中记录每次购买交易。为了让分析师更轻松地处理数据,您将开始运行从这一个表中提取信息的作业,并按区域、品牌或促销价生成较小的表。然后,您的分析人员开始执行相同的操作:执行进一步的转换,将这些较小的表与其他数据源合并,以生成更多表。

这可能会给利益相关方带来巨大的挑战:

  • 数据使用者无法使用自助式工具来了解数据是否来自权威来源。
  • 由于缺少跟踪所有数据转换的可靠方法,数据工程师无法造成问题的根本原因。
  • 在修改或删除表之前,数据工程师和分析人员无法充分评估可能的影响。
  • 数据治理者无法了解敏感数据在整个组织中的使用情况,也无法确保遵守监管要求。

数据沿袭是一种解决方案,提供了一种切实可行的方法来实现以下目标:

  • 了解如何借助沿袭图可视化功能获取和转换数据。
  • 与条目和数据操作相关的跟踪错误追溯至其根本原因。
  • 通过影响分析更好地变更管理:避免停机或意外错误、了解相关条目并与利益相关方协作。

沿袭可视化图

沿袭图表示 Data Lineage API 针对特定 Data Catalog 条目收集的信息:

示例图显示了两个表中的数据,它们进行了转换,然后合并到了一个新表中,详细信息面板底部停靠着一个显示 SQL 代码的位置。
图 1:Dataplex 界面中的沿袭可视化图示例。

Dataplex 与 Data Lineage API 配合使用,以识别符合以下条件的条目:其完全限定名称与数据沿袭识别出的实体匹配。对于匹配的 Dataplex 条目,您可以访问其详细信息页面上的沿袭标签页并查看图表。

沿袭图显示两种类型的元素:

  • 宽幅矩形按钮,表示参与将沿袭信息构建为沿袭事件的来源或目标的实体。
  • 较小的方形按钮,表示负责创建或更新源实体或目标实体的流程。进程按钮使用向 Data Lineage API 报告它们的源系统专用的图标。例如,BigQuery 作业使用 BigQuery 沿袭进程图标。 图标。

数据沿袭信息模型

沿袭基本形式是数据从来源转换为目标的记录。Data Lineage API 会收集这些信息,并使用流程、运行和事件的概念将其整理为分层数据模型。

流程

进程是针对特定系统支持的数据转换操作的定义。在 BigQuery 沿袭环境中,process支持的作业类型之一。

运行

运行是指进程的执行。一个进程可以多次运行。 运行作业包含开始时间和结束时间、状态或其他属性等详细信息。如需了解详情,请参阅 run 资源参考文档

事件

事件表示数据转换操作发生并导致数据在源实体和目标实体之间移动的时间点。

事件包含链接列表,用于定义特定事件中的来源条目和目标条目。虽然事件用于计算沿袭可视化图,但它们不会直接显示在 Google Cloud 控制台中。您可以使用 Data Lineage API 创建、读取和删除(但不能更新)它们。

示例

请参考以下示例,其中的数据在 BigQuery 表之间复制:

示例从名为 customer_year 和 customer 的表中提取数据,以派生名为 top_customer 的表。
图 2.显示表数据源的图表示例。

数据如何在表之间移动由沿袭过程描述(在图上以 BigQuery 沿袭进程图标。 图标表示):它可以是 SQL CREATE TABLE AS SELECT 查询或 INSERT 语句。

该 SQL 语句的每次执行都将构成单次运行。run运行作业包含事件,这些事件会记录哪些表用作源,哪些表用作目标。在此示例中,customer_yearcustomers 表都是目标 top_customer 表的来源

自动数据沿袭跟踪

启用 Data Lineage API 后,支持数据沿袭的 Google Cloud 系统会开始报告其数据移动。每个集成系统都可以提交不同范围的数据源的沿袭信息。如需详细了解每个受支持的产品,请参阅以下部分。

BigQuery

在 BigQuery 项目中启用数据沿袭后,Dataplex 会自动记录以下各项的沿袭信息:

BigQuery 复制、查询和加载作业表示为进程(点击沿袭可视化图上的放大镜图标 可查看进程详情)。每个进程在最近的 BigQuery 作业的属性列表中都包含 BigQuery job_id

其他服务

数据沿袭支持与以下 Google Cloud 服务集成:

自定义数据源的数据沿袭

对于集成系统不支持的任何数据源,您可以使用 Dataplex 中的 Data Lineage API 手动记录沿袭信息。

如果您使用与现有 Data Catalog 条目的完全限定名称匹配的 fullyQualifiedNames,则 Dataplex 可以为手动记录的沿袭创建可视化图。如果要记录自定义数据源的沿袭,请先创建自定义 Data Catalog 条目

自定义数据源的每个进程都可能会在属性列表中包含 sql 键。此类键的值将用于在数据沿袭图的详细信息面板中呈现代码突出显示。SQL 语句将按原样显示。用户负责过滤掉敏感信息。键名 sql 区分大小写。

OpenLineage

如果您已经在使用 OpenLineage 从其他数据源收集沿袭信息,则可以将 OpenLineage 事件导入 Dataplex,并在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成

当前功能限制

  • 所有沿袭信息仅会在系统中保留 30 天
  • 移除相关数据源后,沿袭信息会保留。也就是说,如果移除 BigQuery 表及其 Data Catalog 条目,您仍然可以使用 API 读取该表的沿袭(最多 30 天)。

访问数据沿袭

您可以通过以下方式访问数据沿袭功能:

后续步骤