数据沿袭简介

数据沿袭是 Dataplex 的一项功能,可让您跟踪数据在系统中是如何移动的:数据的来源、传入的位置以及对数据应用了哪些转换。

为什么需要数据沿袭?

处理大数据集通常涉及将数据转换为符合特定项目需求的实体:文本文件、表格、报告、信息中心、模型。

例如,假设您拥有一个网店,您将在一个 SQL 表中记录每次购买。为了使分析师更轻松地处理数据,您需要开始运行从这个表中提取信息的作业,并按区域、品牌或促销价生成较小的表。然后,分析人员开始执行相同的操作:执行进一步的转换,将这些较小的表与其他数据源合并,以生成更多的表。

这可能会成为利益相关方的一大挑战:

  • 数据使用者无法使用自助式工具来了解数据是否来自权威来源。
  • 由于缺乏跟踪所有数据转换的可靠方法,数据工程师无法根本原因导致问题。
  • 数据工程师和分析人员无法在修改或删除表之前充分评估可能产生的影响。
  • 数据调节者无法了解整个组织中敏感数据的使用情况,也无法确保遵守监管要求。

数据沿袭是一种解决方案,提供了一种实现以下目标的实用方法:

  • 借助沿袭图可视化,了解数据的获取和转换方式。
  • 追溯与条目和数据操作相关的错误,追溯其根本原因。
  • 通过影响分析实现更好的变更管理:避免停机或意外错误,了解相关条目并与利益相关方协作。

沿袭可视化图

沿袭图表示 Data Lineage API 针对特定 Data Catalog 条目收集的信息:

示例图显示了两个表中的数据进行转换,然后合并到一个新表中,详细信息面板显示停靠在底部的 SQL 代码。
图 1:Dataplex 界面中的沿袭可视化图示例。

Dataplex 使用 Data Lineage API 来识别完全限定名称与数据沿袭识别的实体匹配的条目。对于匹配的 Dataplex 条目,您可以访问其详细信息页面上的沿袭标签页并查看图表。

沿袭图显示两种类型的元素:

  • 宽矩形按钮,表示参与构建沿袭信息的实体作为沿袭事件的来源或目标
  • 较小的方形按钮,表示负责创建或更新源实体或目标实体的进程。进程按钮使用特定于源系统的图标,该系统向 Data Lineage API 报告这些按钮。例如,BigQuery 作业使用 BigQuery 沿袭过程图标。 图标。

数据沿袭信息模型

基本形式上,沿袭是关于从来源转换为目标的数据的记录。Data Lineage API 会收集这些信息,并使用进程、运行和事件的概念将其整理成分层数据模型。

处理

进程是针对特定系统支持的数据转换操作的定义。在 BigQuery 沿袭中,process支持的作业类型之一。

运行

运行是指进程的执行。一个进程可以有多次运行。 运行作业包含开始时间、结束时间、状态或其他属性等详细信息。如需了解详情,请参阅 run 资源参考文档

事件

事件表示发生数据转换操作并导致数据在源实体和目标实体之间移动的时间点。

事件包含一系列链接,用于定义特定事件中的哪个条目是来源,哪个条目是目标。虽然事件用于计算沿袭可视化图,但它们不会直接显示在 Google Cloud 控制台上。您可以使用 Data Lineage API 创建、读取和删除(但不能更新)这些数据。

示例

请考虑以下示例,其中数据在 BigQuery 表之间复制:

以下示例从名为 customer_year 的表和 customer 表中提取数据,以生成名为 top_customer 的表。
图 2.显示表数据源的图表示例。

数据在表之间的移动方式由沿袭过程描述(在图上用 BigQuery 沿袭过程图标。 图标表示),可以是 SQL CREATE TABLE AS SELECT 查询,也可以是 INSERT 语句。

该 SQL 语句的每次执行都将构成一次单独的运行。run运行包含事件,这些事件记录哪些表用作来源,哪些表用作目标。在此示例中,表 customer_yearcustomers 都是目标 top_customer 表的来源。

自动数据沿袭跟踪

启用 Data Lineage API 后,支持数据沿袭的 Google Cloud 系统会开始报告其数据移动。每个集成式系统都可以提交不同数据源范围的沿袭信息。如需详细了解每种受支持的产品,请参阅以下部分。

BigQuery

在 BigQuery 项目中启用数据沿袭会导致 Dataplex 自动记录以下项目的沿袭信息:

BigQuery 复制、查询和加载作业表示为进程(点击沿袭可视化图上的查看图标 可查看进程详细信息)。每个进程都在最新 BigQuery 作业的属性列表中包含 BigQuery job_id

其他服务

数据沿袭支持与以下 Google Cloud 服务集成:

自定义数据源的数据沿袭

对于集成系统不支持的任何数据源,您可以使用 Dataplex 中的 Data Lineage API 手动记录沿袭信息。

如果您使用与现有 Data Catalog 条目的完全限定名称匹配的 fullyQualifiedNames,Dataplex 可以为手动记录的沿袭创建可视化图。如果要记录自定义数据源的沿袭,请先创建自定义 Data Catalog 条目

自定义数据源的每个进程都可以在属性列表中包含 sql 键。此类键的值将用于在数据沿袭图的详细信息面板中呈现代码突出显示效果。SQL 语句将按原样显示。用户负责滤除敏感信息。键名 sql 区分大小写。

OpenLineage

如果您已在使用 OpenLineage 从其他数据源收集沿袭信息,则可以将 OpenLineage 事件导入 Dataplex 并在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成

当前功能限制

  • 所有沿袭信息在系统中保留 30 天。
  • 您移除沿袭信息的相关数据源后,系统会保留这些信息。 也就是说,如果移除 BigQuery 表及其 Data Catalog 条目,您仍然可以使用 API 读取该表的沿袭(最多 30 天)。

访问数据沿袭

您可以通过以下方式使用数据沿袭功能:

  • Google Cloud 控制台的 Dataplex 界面中的条目详情页面。请参阅查看沿袭图
  • Google Cloud 控制台中 BigQuery 界面中的表详情页面。 请参阅查看沿袭图
  • Google Cloud 控制台的 Vertex AI 界面中的“数据集和模型注册表”页面。 请参阅查看沿袭图
  • Data Lineage API

后续步骤