数据沿袭简介

数据沿袭是 Dataplex 的一项功能,可让您跟踪数据在系统中的移动方式:数据来自何处、被传递到何处以及对数据应用了哪些转换。

为什么需要数据沿袭?

处理大型数据集通常需要将数据转换为根据特定项目需求量身定制的实体:文本文件、表、报告、信息中心、模型。

例如,假设您有一个网店,您将每次购买记录在一个 SQL 表中。为了让分析师更轻松地处理数据,您将开始运行作业,从这个表中提取信息并按区域、品牌或促销价生成较小的表。然后,您的分析师会开始执行相同的操作:他们执行进一步的转换,将这些较小的表与其他数据源合并,以生成更多表。

这对利益相关方而言可能是一项巨大的挑战:

  • 数据使用者无法使用自助式工具来了解数据是否来自权威来源。
  • 由于缺少跟踪所有数据转换的可靠方法,数据工程师无法找出问题的根本原因。
  • 在修改或删除表之前,数据工程师和分析人员无法全面评估可能的影响。
  • 数据治理者无法了解敏感数据在整个组织中的使用情况,因此无法确保遵守监管要求。

数据沿袭是一种解决方案,提供了一种切实可行的方法:

  • 借助沿袭图可视化功能,了解如何获取和转换数据。
  • 与条目和数据操作相关的跟踪错误,追溯至其根本原因。
  • 通过影响分析实现更好的变更管理:避免停机或意外错误、了解依赖条目并与利益相关方协作。

沿袭可视化图

沿袭图表示 Data Lineage API 为特定 Data Catalog 条目收集的信息:

示例图表显示了两个表格的数据,这两个表格经过转换后合并到一个新表格中,详细信息面板底部停靠着一个显示 SQL 代码的信息面板。
图 1:Dataplex 界面中的沿袭可视化图示例。

Dataplex 与 Data Lineage API 配合使用,以识别其完全限定名称与数据沿袭识别的实体相匹配的条目。对于匹配的 Dataplex 条目,您可以访问其详细信息页面上的沿袭标签页并查看图表。

沿袭图显示两种类型的元素:

  • 宽矩形按钮,表示将沿袭信息构建为沿袭事件的来源或目标的实体。
  • 较小的方形按钮,表示负责创建或更新源实体或目标实体的进程。进程按钮使用向 Data Lineage API 报告这些按钮的源系统专用的图标。例如,BigQuery 作业使用 BigQuery 沿袭进程图标。 图标。

数据沿袭信息模型

在其基本形式下,沿袭是数据从来源转换为目标的记录。Data Lineage API 会收集这些信息,并使用进程、运行和事件概念将其整理为分层数据模型。

处理

进程是特定系统支持的数据转换操作的定义。在 BigQuery 沿袭环境中,process支持的作业类型之一。

运行

运行就是进程的执行。进程可以运行多次。 运行作业包含开始时间和结束时间、状态或其他属性等详细信息。如需了解详情,请参阅 run 资源参考文档

事件

事件表示数据转换操作发生并导致数据在源实体与目标实体之间移动的时间点。

事件包含链接列表,这些链接定义特定事件中的来源和目标条目。虽然事件用于计算沿袭可视化图,但它们不会直接显示在 Google Cloud 控制台中。您可以使用 Data Lineage API 创建、读取和删除(但不能更新)它们。

示例

请考虑以下示例,在该示例中,数据在 BigQuery 表之间复制:

示例从名为 customer_year 的表和 customer 表中提取数据,以派生名为 top_customer 的表。
图 2.显示表数据源的图表示例。

沿袭过程(在图表上用 BigQuery 沿袭进程图标。 图标表示)描述表之间的数据移动方式,可以是 SQL CREATE TABLE AS SELECT 查询或 INSERT 语句。

该 SQL 语句的每次执行都将构成一次run。运行作业包含事件,这些事件记录了哪些表被用作来源,哪些表被用作了目标。在此示例中,customer_yearcustomers 表都是目标 top_customer 表的来源

自动数据沿袭跟踪

启用 Data Lineage API 后,支持数据沿袭的 Google Cloud 系统会开始报告其数据移动。每个集成系统都可以提交不同数据源范围的沿袭信息。如需详细了解每个受支持的产品,请参阅以下部分。

BigQuery

在 BigQuery 项目中启用数据沿袭后,Dataplex 会自动记录以下各项的沿袭信息:

BigQuery 复制、查询和加载作业表示为进程(点击沿袭可视化图上的放大镜图标 可查看进程详细信息)。每个进程的属性列表中都包含最新 BigQuery 作业的 BigQuery job_id

其他服务

数据沿袭支持与以下 Google Cloud 服务集成:

自定义数据源的数据沿袭

对于集成系统不支持的任何数据源,您可以使用 Dataplex 中的 Data Lineage API 手动记录沿袭信息。

如果您使用与现有 Data Catalog 条目的完全限定名称匹配的 fullyQualifiedNames,则 Dataplex 可以为手动记录的沿袭创建可视化图。如果要记录自定义数据源的沿袭,请先创建自定义 Data Catalog 条目

自定义数据源的每个进程都可能会在属性列表中包含 sql 键。此类键的值将用于在数据沿袭图的详细信息面板中呈现代码突出显示。SQL 语句将按原样显示。用户有责任过滤掉敏感信息。键名 sql 区分大小写。

OpenLineage

如果您已经在使用 OpenLineage 从其他数据源收集沿袭信息,则可以将 OpenLineage 事件导入 Dataplex 并在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成

当前功能限制

  • 所有沿袭信息仅会在系统中保留 30 天
  • 移除相关数据源后,沿袭信息仍会保留。也就是说,如果移除 BigQuery 表及其 Data Catalog 条目,您仍然可以在最多 30 天内使用 API 读取该表的沿袭。

访问数据沿袭

您可以通过以下方式访问数据沿袭功能:

  • Google Cloud 控制台的 Dataplex 界面中的条目详情页面。请参阅查看沿袭图
  • Google Cloud 控制台的 BigQuery 界面中的“表详细信息”页面。 请参阅查看沿袭图
  • Google Cloud 控制台的 Vertex AI 界面中的“数据集”和“模型注册表”页面。 请参阅查看沿袭图
  • Data Lineage API

后续步骤