数据沿袭是 Dataplex 的一项功能,可让您跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。
为什么需要数据沿袭?
处理大数据集通常涉及将数据转换为量身定制的实体 来满足特定项目的需求:文本文件、表格、报告、信息中心、模型。
例如,假设您拥有一家网店, 您记录了自己 单个 SQL 表。为了让分析师更轻松地处理数据,您开始运行作业,从这个单个表中提取信息,并按地区、品牌或促销价生成较小的表。然后,您的分析师会开始执行相同的操作:他们会执行进一步的转换,将这些较小的表与其他数据源合并,以生成更多表。
这可能会成为利益相关方的一大挑战:
- 数据使用方无法使用自助工具了解数据是否来自权威来源。
- 由于缺乏可靠的方法,数据工程师无法找出问题的根本原因 来跟踪所有数据转换。
- 数据工程师和分析人员无法 修改或删除表。
- 数据管理员无法了解敏感数据在整个组织中的使用情况,也无法确保遵守监管要求。
数据源流是提供以下实用方法的解决方案:
- 借助沿袭图可视化功能,了解数据的获取和转换方式。
- 将与条目和数据操作相关的错误追溯到其根 原因。
- 通过影响分析实现更好的变更管理:避免停机或 意外错误、了解相关条目并与 相关负责人。
数据沿袭信息模型
从基本形式上,沿袭是所转换数据的记录 从“来源”更改为“目标”。Data Lineage API 会收集这些信息 并使用流程、 运行和事件。
流程
“过程”是定义支持以下各项的数据转换操作:
特定系统在 BigQuery 谱系的上下文中,process
是受支持的作业类型之一。
运行
运行是指进程的一次执行。进程可以多次运行。
广告系列投放包含开始和结束时间、状态或其他属性等详细信息。有关详情,请参阅
run
资源参考文档。
事件
事件表示数据转换操作发生的时间点,该操作会导致数据在源实体和目标实体之间移动。
事件包含一个链接列表,用于定义特定事件中的哪个条目是来源,哪个条目是目标。虽然事件用于计算谱系可视化图表,但不会直接在 Google Cloud 控制台中显示。您可以使用 Data Lineage API 创建、读取和删除(但不能更新)这些数据。
示例
请考虑以下在 BigQuery 表之间复制数据的示例:
数据如何在表之间移动由沿袭过程描述
(在图表上以
图标):可能是 SQL CREATE TABLE AS SELECT
查询或 INSERT
语句。
该 SQL 语句的每次执行都将构成一次单独的运行。
运行包含事件,这些事件会记录哪些表用作来源,哪些表用作目标。在此示例中,表 customer_year
和 customers
都是目标 top_customer
表的来源。
沿袭可视化图
谱系图表示 Data Lineage API 为特定 Data Catalog 条目收集的信息。根是指您要查看其谱系的条目。
Dataplex 使用 Data Lineage API 来标识 完全限定名称与数据沿袭识别的实体匹配。 对于匹配的 Dataplex 条目,您可以访问其详情页面上的谱系标签页,然后查看图表。
谱系图会显示两种类型的元素:
表示构建所涉及的实体的宽矩形按钮 沿袭信息作为沿袭事件的来源或目标。
较小的方形按钮,表示负责创建或 更新源实体或目标实体。流程按钮使用了向 Data Lineage API 报告它们的来源系统专有的图标。例如,BigQuery 作业使用 图标。
沿袭列表视图
沿袭列表视图显示 单个表。
与沿袭可视化图相比,更适合查看 相对较小的沿袭图,您可以通过沿袭列表视图查看沿袭 具有许多连接的实体的信息。
下图显示了 Google Cloud 控制台。以下列表更详细地介绍了该图片。
表中的每一行都表示两个条目之间的一个沿袭链接。 在图中,这些名称显示为两个条目之间的谱系链接,包括中间的所有进程节点。例如,
Source
和Target
是资源节点,中间可以有多个进程节点。方向选项用于指定要显示在列表中的数据流部分(相对于根资产):
上游:显示为所选条目提供数据源的条目的沿袭信息。在沿袭图上,这些条目是 。
下游:显示使用所选条目或从所选条目派生的条目的谱系信息。在谱系图中,这些条目是显示在所选条目右侧的条目。
深度是指距离根资源、来源或 衍生资源。列表视图最多可显示 1,000 个沿袭链接, 从根部到最大深度的 10 个沿袭链接。如果存在任何沿袭 则会收到通知。您可以看到超出此范围的沿袭 方法是在列表视图中选择其他实体的名称。
详细信息面板会显示关联的来源、目标以及创建此关联的所有进程的信息。
您可以自定义表格中显示的列, 结果。您还可以将结果导出为 CSV 文件。
自动跟踪数据沿袭
启用 Data Lineage API 后,支持数据源流的 Google Cloud 系统会开始报告其数据移动情况。每个集成式系统都可以提交沿袭信息, 一系列不同数据源如需详细了解每款受支持的产品,请参阅以下部分。
BigQuery
在 BigQuery 项目中启用数据沿袭会导致 用于自动记录以下沿袭信息的 Dataplex:
- 以下 BigQuery 作业生成的新表:
- 使用以下数据操作导致的现有表
Google 标准 SQL 中的语言 (DML) 语句:
- 与所列表类型中的任何一种相关的 SELECT 语句:
- INSERT SELECT
- 合并
- 更新
- 删除
BigQuery 复制、查询和加载作业的表示形式 视为进程(点击浏览器图标 沿袭可视化图上 )。每个进程中,最近一次 BigQuery 作业的 attributes 列表中都包含 BigQuery job_id。
其他服务
数据沿袭支持与以下产品集成 Google Cloud 服务:
自定义数据源的数据沿袭
您可以使用 Data Lineage API 来手动记录任何数据源的沿袭信息 集成系统所不支持的功能
如果您使用与现有 Data Catalog 条目的完全限定名称匹配的 fullyQualifiedNames
,Dataplex 可以为手动记录的谱系创建可视化图表。如果您想记录自定义数据源的谱系,请先创建自定义 Data Catalog 条目。
自定义数据源的每个进程都可以在属性中包含 sql
键
列表。此类键的值将用于详细呈现代码突出显示效果
数据沿袭图的面板。SQL 语句将显示原样
。用户负责滤除敏感信息。键名称 sql
区分大小写。
OpenLineage
如果您已在使用 OpenLineage 从其他数据源收集谱系信息,则可以将 OpenLineage 事件导入 Dataplex,并在 Google Cloud 控制台中显示这些事件。如需了解详情,请参阅与 OpenLineage 集成。
限制
- 所有沿袭信息仅在系统中保留 30 天。
- 移除其相关数据源后,谱系信息会保留。也就是说,如果您移除 BigQuery 表及其 Data Catalog 条目,您仍然可以使用 API 读取该表的谱系(最多 30 天)。
访问数据沿袭
您可以使用以下方式访问数据沿袭功能:
- Google Cloud 控制台中 Dataplex 界面中的条目详情页面。 请参阅查看沿袭图。
- Google Cloud 控制台中 BigQuery 界面中的表详情页面。 请参阅查看沿袭图。
- Google Cloud 控制台的 Vertex AI 界面中的“数据集和模型注册表”页面。 请参阅查看沿袭图。
- Data Lineage API
价格
Dataplex 使用高级处理 SKU 对数据沿袭进行计费。如需了解详情,请参阅价格。
为了将数据沿袭费用与 Dataplex 高级处理 SKU,位于 Cloud Billing 报告,使用标签
goog-dataplex-workload-type
,值为LINEAGE
。如果您调用 Data Lineage API
Origin
sourceType
的值不是CUSTOM
,则可能会产生额外的费用。
后续步骤
如需了解管理信息,请参阅更新后的 IAM 部分、谱系注意事项和数据谱系审核日志记录。