探索数据沿袭

本教程介绍如何使用 Cloud Data Fusion 来探索数据沿袭:数据的来源及其在一段时间内的移动。

Cloud Data Fusion 数据沿袭

Cloud Data Fusion 数据沿袭可帮助您:

  • 检测不良数据事件的根本原因
  • 在更改数据之前执行影响分析

Cloud Data Fusion 提供数据集层级和字段层级沿袭,且具有时限性,会在一段时间内显示沿袭。

  • 数据集层级沿袭显示在选定时间间隔内数据集与流水线之间的关系。

  • 字段层级沿袭显示了对源数据集中的一组字段执行的操作,以在目标数据集中生成一组不同的字段。

教程使用场景

在本教程中,您将使用两个流水线:

  • Shipment Data Cleansing 流水线会从小型样本数据集中读取原始送货数据,并应用转换来清理数据。

  • 然后,Delayed Shipments USA 流水线会读取经过清理的送货数据、对数据进行分析,并找出美国境内延迟时间超过阈值的货物。

这些教程流水线演示了一个典型场景,在此场景中,系统会清理原始数据,然后将其发送给下游处理。您可以使用 Cloud Data Fusion 沿袭功能来探索以下数据跟踪:从原始数据到经过清理的送货数据再到分析输出。

目标

  • 运行示例流水线以生成沿袭
  • 浏览数据集和字段层级沿袭
  • 了解如何将握手信息从上游流水线传递到下游流水线

费用

本教程使用 Google Cloud 的以下收费组件:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

请使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册一个新帐号

  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到项目选择器页面

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery API。

    启用 API

  5. 创建 Cloud Data Fusion 企业版实例
  6. 点击以下链接,将这些小型示例数据集下载到您的本地机器:

打开 Cloud Data Fusion 界面

使用 Cloud Data Fusion 时,您将同时使用 Cloud Console 和单独的 Cloud Data Fusion 界面。在 Cloud Console 中,您可以创建 Cloud Console 项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以使用各种页面(如沿袭页面)访问 Cloud Data Fusion 功能。

  1. 在 Cloud Console 中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击“查看实例”链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

  3. 在“集成”面板或左侧导航面板中点击 Studio,打开 Cloud Data Fusion Studio 页面。

部署和运行流水线

  1. 导入原始送货数据。点击 Studio 页面右上角的“导入”(或点击 +→流水线→导入),然后选择并导入您在准备工作中下载的“送货数据清理”流水线。

  2. 部署流水线。在 Studio 页面右上角,点击“部署”。部署后,系统会打开流水线页面。

  3. 运行流水线。在流水线页面的顶部中间位置,点击“运行”。

  4. 导入、部署并运行延迟送货数据和流水线。 在“送货数据清理”的状态显示“成功”之后,请将上述步骤应用于您在准备工作中下载的“美国延迟送货”数据。返回到 Studio 页面以导入数据,然后从流水线页面部署并运行第二个流水线。成功完成运行第二个流水线后,您可以继续执行下面的其余步骤。

探索数据集

您必须先探索数据集,然后才能探索其沿袭。从 Cloud Data Fusion 界面的左侧导航面板中选择元数据,以打开元数据搜索页面。由于“送货数据清理”数据集指定了“经过清理的送货”数据集作为参考数据集,因此请在搜索框中插入“送货”。搜索结果包含此数据集。

使用标记探索数据集

元数据搜索会探索已被 Cloud Data Fusion 流水线使用、处理或生成的数据集。流水线在生成并收集技术元数据和操作元数据的结构化框架上执行。技术元数据包括数据集名称、类型、架构、字段、创建时间和处理信息。Cloud Data Fusion 元数据搜索和沿袭功能会使用此技术信息。

Cloud Data Fusion 还支持为包含业务元数据的数据集添加注释,例如标签和键值属性,可用作搜索条件。例如,要在“原始送货数据”数据集上添加并搜索业务标签注释,请执行以下操作:

  1. 点击“送货数据清理”流水线页面上的“原始送货数据”节点的“属性”按钮,以打开 GCS 属性页面。

  2. 点击“查看元数据”以打开搜索页面。

  3. 在“业务标签”下,点击 +,然后插入标签名称(允许使用字母数字字符和下划线字符),然后按 Enter 键。

探索沿袭

数据集层级沿袭

点击探索数据集中的“搜索”页面上列出的“经过清理的送货”数据集名称,然后点击“沿袭”标签页。沿袭图表显示此数据集是由已使用“原始送货数据”数据集的“送货数据清理”流水线生成的。

借助左右箭头,您可以向后/前导航任何前后数据集沿袭。在此示例中,该图表显示了“经过清理的送货”数据集的完整沿袭。

字段层级沿袭

Cloud Data Fusion 字段层级沿袭显示了数据集的字段与对一组字段执行以生成一组不同字段的转换之间的关系。与数据集层级沿袭一样,字段层级沿袭具有时限性,其结果会随时间发生变化。

接着数据集层级沿袭步骤继续执行操作,点击“经过清理的送货”数据集层级沿袭图表右上角的“字段层级沿袭”按钮,以显示其字段层级沿袭图表。

字段层级沿袭图表显示字段之间的连接。您可以选择某个字段以查看其沿袭。选择查看→固定字段仅查看该字段的沿袭。

选择查看→查看影响以执行影响分析。

“原因”和“影响”链接以简明易懂的账本格式显示在字段两侧执行的转换。此信息对于报告和管理而言至关重要。

清理

为避免系统因本教程中使用的资源向您的 Google Cloud Platform 帐号收取费用,请执行以下操作:

学完本教程后,请清理在 Google Cloud 上创建的资源,以避免这些资源占用配额,日后产生费用。以下部分介绍如何删除或关闭这些资源。

删除教程数据集

本教程会创建一个 logistics_demo 数据集,其中包含您项目中的多个表。

您可以从 Cloud Console 中的 BigQuery 网页界面删除数据集。

删除 Cloud Data Fusion 实例

按照说明删除 Cloud Data Fusion 实例

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. 在 Cloud Console 中,转到管理资源页面。

    转到“管理资源”页面

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤