使用元数据探索数据沿袭


本教程介绍如何使用 Cloud Data Fusion 来探索数据沿袭:数据的来源及其随时间的移动。

如需了解 Data Catalog 资产沿袭集成,请改为参阅在 Dataplex 中查看沿袭

Cloud Data Fusion 数据沿袭

您可以使用 Cloud Data Fusion 数据沿袭执行以下操作:

  • 检测不良数据事件的根本原因。

  • 在更改数据之前,请执行影响分析。

Cloud Data Fusion 提供数据集层级和字段层级沿袭,且具有时限性,会在一段时间内显示沿袭。

  • 数据集层级沿袭显示在选定时间间隔内数据集与流水线之间的关系。

  • 字段层级沿袭显示了对源数据集中的一组字段执行的操作,以在目标数据集中生成一组不同的字段。

教程使用场景

在本教程中,您将使用两个流水线:

  • Shipment Data Cleansing 流水线会从小型样本数据集中读取原始送货数据,并应用转换来清理数据。

  • 然后,Delayed Shipments USA 流水线会读取经过清理的送货数据、对数据进行分析,并找出美国境内延迟时间超过阈值的货物。

这些教程流水线演示了一个典型场景,在此场景中,系统会清理原始数据,然后将其发送给下游处理。您可以使用 Cloud Data Fusion 沿袭功能来探索以下数据跟踪:从原始数据到经过清理的送货数据再到分析输出。

目标

  • 通过运行示例流水线生成沿袭
  • 浏览数据集和字段层级沿袭
  • 了解如何将握手信息从上游流水线传递到下游流水线

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 确保您的 Google Cloud 项目已启用结算功能

  6. 启用 Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery API。

    启用 API

  7. 创建 Cloud Data Fusion 实例
  8. 点击以下链接可将这些小型示例数据集下载到本地机器:

打开 Cloud Data Fusion 界面

使用 Cloud Data Fusion 时,您可以同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 控制台项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以使用各种页面(如沿袭页面)访问 Cloud Data Fusion 功能。

  1. 在 Google Cloud 控制台中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击“查看实例”链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

  3. 集成窗格中,点击 Studio 以打开 Cloud Data Fusion Studio 页面。

部署和运行流水线

  1. 导入原始送货数据。在 Studio 页面上,点击导入或点击 + > 流水线 > 导入,然后选择并导入您在准备工作中下载的发货数据清理流水线。

  2. 部署流水线。在 Studio 页面右上角,点击“部署”。部署后,系统会打开流水线页面。

  3. 运行流水线。在流水线页面的顶部中间位置,点击“运行”。

  4. 导入、部署并运行延迟送货数据和流水线。 当配送数据清理的状态显示成功后,将上述步骤应用于您在准备工作中下载的 Delayed Shipments USA 数据。返回 Studio 页面以导入数据,然后从流水线页面部署并运行第二条流水线。第二个流水线成功完成后,继续执行其余步骤。

探索数据集

您必须先探索数据集,然后才能探索其沿袭。从 Cloud Data Fusion 界面的左侧导航面板中选择元数据,以打开元数据搜索页面。由于装运数据清理数据集将 Cleaned-Shipments 指定为参考数据集,因此请在搜索框中输入 shipment。搜索结果包含此数据集。

使用标记探索数据集

元数据搜索会探索已被 Cloud Data Fusion 流水线使用、处理或生成的数据集。流水线在生成并收集技术元数据和操作元数据的结构化框架上执行。技术元数据包括数据集名称、类型、架构、字段、创建时间和处理信息。Cloud Data Fusion 元数据搜索和沿袭功能会使用此技术信息。

Cloud Data Fusion 还支持为包含业务元数据的数据集添加注解,例如标签和键值属性,可用作搜索条件。例如,要在“原始送货数据”数据集上添加并搜索业务标签注解,请执行以下操作:

  1. 点击“送货数据清理”流水线页面上的“原始送货数据”节点的属性按钮,以打开 Cloud Storage 属性页面。

  2. 点击查看元数据以打开搜索页面。

  3. 业务标签下,点击 +,然后插入标签名称(允许使用字母数字字符和下划线字符),然后按 Enter 键。

探索沿袭

数据集层级沿袭

点击“搜索”页面(来自发现数据集)上列出的 Cleaned-Shipments 数据集名称,然后点击“Lineage”标签页。沿袭图表显示此数据集是由已使用“原始送货数据”数据集的“送货数据清理”流水线生成的。

通过向左和向右箭头,您可以前后浏览任何之前或后续的数据集沿袭。在此示例中,该图表显示了“经过清理的送货”数据集的完整沿袭。

字段层级沿袭

Cloud Data Fusion 字段层级沿袭显示了数据集的字段与对一组字段执行以生成一组不同字段的转换之间的关系。与数据集层级沿袭一样,字段层级沿袭具有时限性,其结果会随时间发生变化。

接着数据集层级沿袭步骤继续执行操作,点击“经过清理的送货”数据集层级沿袭图表右上角的“字段层级沿袭”按钮,以显示其字段层级沿袭图表。

字段层级沿袭图表显示字段之间的连接。您可以选择某个字段以查看其沿袭。依次选择查看 > 固定字段,仅查看该字段的沿袭。

依次选择查看 > 查看影响,以执行影响分析。

“原因”和“影响”链接以简明易懂的账本格式显示在字段两侧执行的转换。此信息对于报告和管理而言至关重要。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

学完本教程后,请清理在 Google Cloud 上创建的资源,以避免这些资源占用配额,日后产生费用。以下部分介绍如何删除或关闭这些资源。

删除教程数据集

本教程会创建一个 logistics_demo 数据集,其中包含您项目中的多个表。

您可以在 Google Cloud 控制台的 BigQuery 网页界面中删除数据集。

删除 Cloud Data Fusion 实例

按照说明删除 Cloud Data Fusion 实例

删除项目

若要避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤