数据沿袭是 Dataplex 功能,您可以跟踪数据在系统中是如何移动的: 数据来源、传递到数据的位置以及对数据应用了哪些转换。
为什么需要数据沿袭?
处理大数据集通常涉及将数据转换为量身定制的实体 来满足特定项目的需求:文本文件、表格、报告、信息中心、模型。
例如,假设您拥有一家网店, 您记录了自己 单个 SQL 表。为了让分析人员更轻松地处理数据, 您开始运行从这个表中提取信息的作业 并按区域、品牌或促销价生成较小的表格。您的分析师 它们会执行进一步的转换,将这些较小的 将多个表与其他数据源结合使用,以生成更多表。
这可能会成为利益相关方的一大挑战:
- 数据使用者无法通过自助式工具来了解数据是否来自 来自权威来源
- 由于缺乏可靠的方法,数据工程师无法找出问题的根本原因 来跟踪所有数据转换。
- 数据工程师和分析人员无法 修改或删除表。
- 数据管理员无法理解敏感数据在整个过程中的使用情况 并确保遵守法规要求。
数据沿袭是一种解决方案,提供了一种实现以下目标的实用方法:
- 了解如何借助沿袭数据获取和转换数据 以及图形可视化。
- 将与条目和数据操作相关的错误追溯到其根 原因。
- 通过影响分析实现更好的变更管理:避免停机或 意外错误、了解相关条目并与 相关负责人。
沿袭可视化图
沿袭图表示 Data Lineage API 收集的信息 特定 Data Catalog 条目:
![示例图显示了两个表中的数据进行转换然后合并
复制到一个新表中,详细信息面板显示停靠在底部的 SQL 代码。](https://cloud.google.com/static/data-catalog/images/lineage_total_end_screen.png?authuser=8&hl=zh-cn)
Dataplex 与 Data Lineage API 搭配使用,来识别 完全限定名称与数据沿袭识别的实体匹配。 对于匹配的 Dataplex 条目,您可以访问沿袭 标签,然后查看图表。
沿袭图显示两种类型的元素:
- 用于代表以下各项中的实体的宽矩形按钮 将沿袭信息构建为沿袭事件的来源或目标。
- 较小的方形按钮,表示负责创建或更新的流程
来源实体或目标实体。进程按钮使用
已将其报告给 Data Lineage API。例如,BigQuery 作业
使用
图标。
数据沿袭信息模型
从基本形式上,沿袭是所转换数据的记录 从“来源”更改为“目标”。Data Lineage API 会收集这些信息 并使用流程、 运行和事件。
流程
“过程”是定义支持以下各项的数据转换操作:
特定系统在 BigQuery 沿袭中
process
是支持的作业类型之一。
运行
运行是指进程的执行。一个进程可以有多次运行。
运行作业包含开始时间、结束时间、状态或其他属性等详细信息。
有关详情,请参阅
run
资源参考文档。
事件
事件表示执行数据转换操作的时间点 导致数据在源实体和目标实体之间移动。
事件包含一系列链接,用于定义哪个条目是来源 以及是特定事件中的目标事件用于计算 沿袭可视化图,它们不会直接显示在 Google Cloud 控制台上。 您可以使用 Data Lineage API 创建、读取和删除(但不能更新)这些数据。
示例
请考虑以下示例,其中数据在 BigQuery 之间复制 表:
![以下示例从名为 customer_year 的表和 customer 表中提取数据,以生成名为 top_customer 的表。](https://cloud.google.com/static/data-catalog/images/sample_lineage_graph.png?authuser=8&hl=zh-cn)
数据如何在表之间移动由沿袭过程描述
(在图表上以
图标):可能是 SQL
CREATE TABLE AS SELECT
查询或 INSERT
语句。
该 SQL 语句的每次执行都将构成一次单独的运行。
运行包含事件,这些事件记录哪些表用作来源以及
将其作为目标在本示例中,表
customer_year
和 customers
都是源代码
(针对目标 top_customer
表)。
自动数据沿袭跟踪
启用 Data Lineage API 后,支持 数据沿袭开始报告其数据移动。 每个集成系统都可以提交沿袭信息, 一系列不同数据源请参阅以下部分,详细了解 所有受支持的产品
BigQuery
在 BigQuery 项目中启用数据沿袭会导致 用于自动记录以下沿袭信息的 Dataplex:
。BigQuery 复制、查询和加载作业的表示形式
视为进程(点击浏览器图标
沿袭可视化图上
详情)。每个进程都包含 BigQuery job_id
在
属性
最近的 BigQuery 作业的列表。
其他服务
数据沿袭支持与以下产品集成 Google Cloud 服务:
自定义数据源的数据沿袭
您可以使用 Data Lineage API 来手动记录任何非活跃数据源的沿袭信息, 由集成系统提供支持
Dataplex 可以创建可视化图表,用于手动记录
如果使用
fullyQualifiedNames
(与
现有 Data Catalog 条目的限定名称。录制
为自定义数据源创建沿袭,请先创建一个
自定义 Data Catalog 条目。
每个自定义数据源进程的属性中都可能包含 sql
键
。此类键的值将用于详细呈现代码突出显示效果
数据沿袭图的面板。SQL 语句将显示原样
。用户负责滤除敏感信息。通过
键名 sql
区分大小写。
OpenLineage
如果您已在使用 OpenLineage 从其他 数据源,您可以将 OpenLineage 事件导入 Dataplex, 在 Google Cloud 控制台中显示这些事件。有关详情,请参阅 与 OpenLineage 集成。
当前功能限制
- 所有沿袭信息仅在系统中保留 30 天。
- 您移除沿袭信息的相关数据源后,系统会保留这些信息。 也就是说,如果您移除 BigQuery 表及其 Data Catalog 您仍然可以使用 API 读取该表的沿袭数据, 30 天。
访问数据沿袭
您可以通过以下方式使用数据沿袭功能:
- Google Cloud 控制台的 Dataplex 界面中的条目详情页面。 请参阅查看沿袭图。
- Google Cloud 控制台中 BigQuery 界面中的表详情页面。 请参阅查看沿袭图。
- Google Cloud 控制台的 Vertex AI 界面中的“数据集和模型注册表”页面。 请参阅查看沿袭图。
- Data Lineage API
后续步骤
如需了解管理信息,请参阅更新后的 IAM 部分、沿袭注意事项和数据沿袭审核日志记录。