沿袭可视化图表简介

数据沿袭通过跟踪数据资产与转换这些资产的进程之间的关系,帮助您了解数据在系统中的流动方式。您可以在 Google Cloud 控制台中以图表和列表的形式查看此沿袭信息。

本文档概述了数据沿袭信息模型,详细介绍了表级和列级沿袭粒度,并说明了如何使用图表视图和列表视图来探索数据沿袭。

数据沿袭信息模型

沿袭是指将数据从来源转换为目标的记录。Data Lineage API 会收集此信息,并将其整理成使用进程、运行和事件概念的分层数据模型。

  • 进程:数据转换定义。
  • 运行:流程的执行。
  • 事件:运行期间数据移动的记录。

流程

进程是指针对特定系统的数据转换操作的定义。对于 BigQuery 沿袭,进程是指支持的作业类型的作业。同一 SQL 查询的所有执行都与单个进程相关联,这让您可以跟踪使用特定转换逻辑的每个实例。

例如,以下 SQL 查询就是一个进程。此查询通过统计两个源表中每个供应商的总行程数来创建表。

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

进程的 REST 资源名称格式为 projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID

例如:projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

如需详细了解 process 资源,请参阅进程资源参考文档

运行

运行是指流程的单次执行。进程可以多次运行。

每次运行都是一项独特的操作,具有 startTimeendTime 和最终状态(例如 COMPLETEDFAILEDABORTED)。

例如,在上午 9:00 执行流程部分中的 SQL 查询会创建特定的运行。在上午 10:00 再次执行同一查询会创建新的不同运行。 两次运行都与同一父进程相关联。

运行的 REST 资源名称格式表明它是进程的子级:projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID

例如:projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

如需详细了解 run 资源,请参阅跑步资源参考文档

事件

事件表示数据转换将数据在来源实体和目标实体之间移动的时间点。事件是特定运行中连接源表和目标表的特定数据移动的细化记录。一个事件也可以有多个来源和目标。

例如,如果您的运行执行了处理部分中讨论的 SQL 查询,则沿袭事件会记录 nyc_green_trips_2021nyc_green_trips_2022 源表用于创建 total_green_trips_22_21 目标表。

谱系事件包含一个链接列表,用于定义来源和目标。事件用于创建谱系图。 虽然 Google Cloud 控制台会显示这些沿袭图,但不会直接显示各个事件。您可以使用 Data Lineage API 创建、读取和删除事件,但不能更新事件。

事件中的每个链接都定义了从源实体到目标实体的单个数据流路径。实体是指对数据资产(例如 BigQuery 表)的引用,并通过其完全限定名称 (FQN) 进行标识。单个事件可以包含多个链接,这在表联接等操作中很常见,因为多个来源会促成一个目标。

如需详细了解事件如何支持列级沿袭,请参阅列级沿袭

沿袭粒度

借助数据沿袭,您可以跟踪表级和列级数据的来源和转换路径。

表级层沿袭

表级沿袭通过显示整个表之间的关系,简要概述了数据流水线。使用表级层沿袭可执行以下宏观层面的任务:

  • 数据发现。构建新信息中心的分析师可以使用表级沿袭来追溯汇总表的来源,并确认数据来自权威数据库。

  • 迁移规划。计划迁移核心数据库的数据库管理员可以使用表级沿袭来确定依赖于该数据库的每个下游报告和信息中心。

  • 审核和治理。数据监管员可以使用表级和列级沿袭来检查包含个人身份信息 (PII) 的表中的数据在流水线中的流向。

列级沿袭

列级沿袭通过跟踪各个列之间的数据流来提供更精细的视图。在此视图中,谱系事件中的链接表示源列与目标列之间的关系。每个列级链接都有一个用于描述转换的依赖类型:

  • Exact copy:在列之间复制值。

  • Other:列之间的其他类型的依赖关系。

使用列级沿袭可执行以下任务:

  • 根本原因分析。如果数据分析师发现某列中的值不正确,可以使用列级沿袭将其追溯到源列,以找出根本原因。

  • 影响分析。在数据工程师弃用某个列之前,他们可以使用列级沿袭来查找依赖于该列的每个下游列。

  • 指标的数据源验证。数据分析师可以使用列级沿袭来确定哪些源列用于计算指标,而无需解读复杂的 SQL 查询。

系统会自动收集以下类型的 BigQuery 作业的列级沿袭信息:

Google Cloud 控制台中的谱系视图

借助 Google Cloud 控制台中的数据沿袭功能,您可以通过两种方式与沿袭信息互动:您可以探索多个可用区域中的沿袭图,也可以使用沿袭探索器面板在特定区域内获得更集中的视图。您还可以在图表视图和列表视图之间切换,以分析不同详细程度的数据流。

沿袭视图仅适用于 Dataplex Universal Catalog 条目、BigQuery 资产和 Vertex AI 资源(模型、数据集、特征存储区视图和特征组)。

如需查看本页中讨论的不同视图,请参阅将数据沿袭与 Google Cloud 系统搭配使用

沿袭图视图

图表视图可直观呈现各个系统和区域的数据资产流和关系,帮助您了解数据架构、跟踪来源和目的地,以及识别模式。这些沿袭图由 Data Lineage API 服务针对特定 Dataplex Universal Catalog 条目生成,用于显示数据随时间推移的转换方式,并显示所选根条目的上游、下游或双向流。

Data Lineage API 会自动从受支持的系统接收资产信息,并通过 API 调用接收自定义来源的资产信息。

图中的关键元素如下所述:

  • 节点。表示数据实体。在表级视图中,节点会显示表名称及其列。在列级视图中,每个节点都代表特定的表和列。

  • 边缘。连接节点并表示节点之间发生的流程的线条。边的外观取决于谱系视图:

    • 在表级视图中,边会显示图标来指示数据转换。
    • 在列级视图中,边带有标签,用于指示数据转换。例如,边缘标签可能会显示 Exact copy,以描述源列如何复制到目标列。
  • 处理图标和标签。显示在边缘,提供有关转换的更多信息。

    • 图标。表示转换过程。手动探索图表时,边上的图标表示进程的来源系统(例如 BigQuery 或 Vertex AI)。如果涉及多个进程,则会显示“多个进程”图标。如果进程来源系统未知,则使用齿轮图标。应用过滤条件后,所有进程都会使用齿轮图标。
    • 标签。在列级沿袭视图中,标签用于描述列之间的依赖关系类型:Exact copyOther

手动探索沿袭图

打开沿袭标签页后,您会看到默认的图表视图。默认视图提供跨系统和区域的简要概览,并支持手动和增量图表扩展,每次可加载五个节点。边缘上的流程图标表示源系统或指示多个流程。

显示互联数据资产的默认沿袭图视图。
默认沿袭图视图

应用过滤条件以获得重点突出谱系视图

如需过滤谱系数据以便在特定区域内进行重点分析,请使用谱系探索器面板。以下是一些可用于切换到聚焦视图的条件:

  • 列名称:按列名称过滤沿袭数据,以查看列级详细信息。
  • 方向:显示上游沿袭、下游沿袭或两者都显示。
  • 时间范围:根据特定开始时间或结束时间过滤谱系。
  • 依赖关系类型:根据依赖关系类型过滤列级谱系。 可用选项的示例包括 AllExact copy
沿袭数据探索器面板,其中显示了列级沿袭数据、方向和时间范围的过滤条件。
谱系探索器面板

聚焦视图会自动将图表展开到最多三个级别,并加载符合过滤条件的所有谱系。它支持表级和列级沿袭,包括从任何选定节点到根节点的路径可视化。在此聚焦视图中,所有进程都使用通用的齿轮图标。

显示过滤后的数据资产的聚焦沿袭图视图。
聚焦于表级沿袭图的视图

如需查看列级沿袭,您可以采用以下方法之一:

  • 在聚焦的图表视图中,点击表格中的列图标可切换到列级沿袭。

    用于切换到列级沿袭的图标。
    “列”图标
  • 在默认视图或聚焦视图中,在沿袭关系探索器面板中应用列名称。

显示表之间列级关系的沿袭图。
列级沿袭视图

如需移除所有过滤条件并返回到默认视图,请点击“重置”。

节点详情

如需查看节点的详细信息,请点击相应节点。系统会显示一个侧边栏,其中包含所选数据资产的详细信息。例如,在表级谱系视图中,点击某个节点会显示相应信息,例如资产的完全限定名称、类型和其他相关属性。

沿袭图中选定节点的“详细信息”面板。
节点详情

跑步的审核和历史记录

完整的谱系图是多次运行不同作业的结果,每个作业都会在图中创建一个特定的链接。多次执行会记录为新的运行,但不会改变图表的静态外观。

如需查看这些单独执行的详细信息,请点击图上带有进程的边。在随即显示的查询面板中,点击运行标签页。

显示“详细信息”和“运行”标签页的“查询”面板。
“查询”面板

检查转换逻辑

如需了解转换的业务逻辑,而无需搜索代码,您可以查看运行的确切 SQL 查询。如需查看 SQL 代码,请点击图上包含进程的边。在随即显示的侧边栏中,点击详细信息标签页。

沿袭路径可视化图表

沿袭路径可视化可帮助您将图表中任何选定节点的路径追溯到根条目。选择某个节点并点击可视化路径后,图表中只会突出显示构成通往根条目的直接沿袭路径的节点和进程。

如需查看谱系路径可视化图表,请在谱系探索器面板中应用过滤条件,以创建重点突出的图表视图。然后,在聚焦的图表视图中,选择一个节点。在所选节点的详细信息面板中,点击可视化路径

沿袭路径可视化图表适用于表级和列级沿袭。您还可以在列表视图中使用沿袭路径可视化图表。

列级沿袭图表视图中的沿袭路径可视化按钮。
列级沿袭图视图中的沿袭路径可视化按钮

沿袭列表视图

列表视图以表格形式显示结构化的沿袭数据,并与视图同步。它有助于对数据资产进行排序、过滤和下载。此视图非常适合分析源-目标关系、详细了解涉及的资产以及导出沿袭数据。

列表视图适用于表级沿袭和列级沿袭。您可以在以下详细列表视图和简化列表视图之间切换。

  • 简化的列表视图:此视图有助于获取沿袭中涉及的所有资产的简化唯一列表。系统项目实体FQN(完全限定名称)、方向深度等列可帮助您查看谱系中的所有数据资产、它们所在的位置、原始来源以及它们与正在分析的中心资产之间的距离。非常适合大致了解参与数据流的所有实体。这是默认视图。

  • 详细列表视图:此视图旨在分析各个来源-目标关系。通过为来源目标提供单独的列,您可以查看每个具体的数据转换链接。此视图非常适合需要深入了解特定资产对之间的数据流动情况的任务,例如审核各个数据流、了解表之间的依赖关系,或导出每个连接的详细沿袭记录。

表级层沿袭列表视图

此视图显示了表之间的整体关系。 使用提供的过滤条件选择所需的列。

显示简化的表级沿袭列表视图的表格。
表格级简化的列表视图

展开即可下部分,查看表格级列表视图中可用的列。

简化版表级列表视图中可用的列

  • 系统:数据资产所在的系统。例如 BigQuery。
  • 项目:包含数据资产的 Google Cloud 项目 ID。
  • 实体:数据资源的名称。示例中包含表名称。
  • FQN:原始来源实体或列的完全限定名称 (FQN)。
  • 方向:表示所列出的资产在沿袭流中是上游(源)还是下游(目标)。
  • 深度:从正在分析的中心资产开始的谱系步数。

详细表格级列表视图中可用的列

  • 源系统:源数据资源所在的系统。 例如 BigQuery。
  • 源项目:包含源数据资产的 Google Cloud 项目 ID。
  • 来源:源数据资产的名称。示例包括表名称。
  • 来源 FQN:来源实体的 FQN。
  • 目标系统:目标数据资产所在的系统。 例如 BigQuery。
  • 目标项目:包含目标数据资产的 Google Cloud 项目 ID。
  • 目标:目标数据资产的名称。示例包括表名称。
  • 目标 FQN:目标实体的 FQN。
  • 方向:表示所列出的资产在沿袭流中是上游(源)还是下游(目标)。
  • 深度:从正在分析的中心资产开始的谱系步数。

列级沿袭列表视图

此视图显示了源表和目标表中各个列之间的关系。使用提供的过滤条件选择所需的列。

显示简化的列级沿袭数据列表视图的表格。
列级简化的列表视图

展开即可下部分,查看列级列表视图中可用的列。

简化列级列表视图中可用的列

  • 系统:数据资产所在的系统。例如 BigQuery。
  • 项目:包含数据资产的 Google Cloud 项目 ID。
  • 实体:数据资源的名称。示例中包含表名称。
  • :实体中在 Lineage Explorer 面板内选择的特定列。
  • FQN:原始来源实体或列的完全限定名称 (FQN)。
  • 方向:表示所列出的资产在沿袭流中是上游(源)还是下游(目标)。
  • 深度:从正在分析的中心资产开始的谱系步数。

详细的列级列表视图中提供的列

  • 源系统:源数据资源所在的系统。
  • 源项目:包含源数据资产的 Google Cloud 项目 ID。
  • 来源 FQN:来源列的 FQN。
  • 目标系统:目标数据资产所在的系统。
  • 目标项目:包含目标数据资产的 Google Cloud 项目 ID。
  • 目标 FQN:目标列的 FQN。
  • 方向:指明数据流是上游还是下游。
  • 依赖关系类型:描述列之间的关系性质。
  • 深度:从正在分析的中心资产开始的谱系步数。

后续步骤