使用元数据探索数据沿袭


本教程介绍如何使用 Cloud Data Fusion 来探索数据沿袭:数据的来源及其在一段时间内的移动。

Cloud Data Fusion 数据沿袭

您可以使用 Cloud Data Fusion 数据沿袭来执行以下操作:

  • 检测不良数据事件的根本原因。

  • 在更改数据之前执行影响分析。

我们建议您在 Dataplex 中使用资产谱系集成。如需了解详情,请参阅在 Dataplex 中查看沿袭

您还可以在 Cloud Data Fusion Studio 中使用元数据选项查看数据集字段级的沿袭,该选项会显示所选时间范围的沿袭。

  • 数据集层级沿袭显示数据集与流水线之间的关系。

  • 字段层级沿袭显示了对源数据集中的一组字段执行的操作,以在目标数据集中生成一组不同的字段。

从 Cloud Data Fusion 6.9.2.4 开始,如果您不跟踪 Cloud Data Fusion 中的谱系,我们建议您使用 patch 方法在实例中关闭字段级谱系发射:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

替换以下内容:

  • PROJECT_ID: Google Cloud 项目 ID
  • REGION: Google Cloud 项目的位置
  • INSTANCE_ID:Cloud Data Fusion 实例 ID

教程使用场景

在本教程中,您将使用两个流水线:

  • Shipment Data Cleansing 流水线会从小型样本数据集中读取原始送货数据,并应用转换来清理数据。

  • 然后,Delayed Shipments USA 流水线会读取经过清理的送货数据、对数据进行分析,并找出美国境内延迟时间超过阈值的货物。

这些教程流水线演示了一个典型场景,在此场景中,系统会清理原始数据,然后将其发送给下游处理。您可以使用 Cloud Data Fusion 沿袭功能来探索以下数据跟踪:从原始数据到经过清理的送货数据再到分析输出。

目标

  • 通过运行示例流水线生成沿袭
  • 浏览数据集和字段层级沿袭
  • 了解如何将握手信息从上游流水线传递到下游流水线

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. 创建 Cloud Data Fusion 实例
  8. 点击以下链接,将这些小型示例数据集下载到您的本地机器:

打开 Cloud Data Fusion 界面

使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 控制台项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以使用各种页面(如沿袭页面)访问 Cloud Data Fusion 功能。

  1. 在 Google Cloud 控制台中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击“查看实例”链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

  3. 集成窗格中,点击 Studio 以打开 Cloud Data Fusion Studio 页面。

部署和运行流水线

  1. 导入原始送货数据。在 Studio 页面上,点击导入或依次点击 + > 流水线 > 导入,然后选择并导入您在准备工作中下载的“送货数据清理”流水线。

  2. 部署流水线。在 Studio 页面右上角,点击“部署”。部署后,系统会打开流水线页面。

  3. 运行流水线。在流水线页面的顶部中间位置,点击“运行”。

  4. 导入、部署并运行延迟送货数据和流水线。 在“送货数据清理”的状态显示成功后,请将上述步骤应用于您在准备工作中下载的“美国延迟送货”数据。返回到 Studio 页面以导入数据,然后从流水线页面部署并运行第二个流水线。第二个流水线成功完成后,继续执行其余步骤。

探索数据集

您必须先探索数据集,然后才能探索其沿袭。从 Cloud Data Fusion 界面的左侧导航面板中选择元数据,以打开元数据搜索页面。由于“送货数据清理”数据集指定了经过清理的送货数据集作为参考数据集,因此请在搜索框中插入送货。搜索结果包含此数据集。

使用标记探索数据集

元数据搜索会探索已被 Cloud Data Fusion 流水线使用、处理或生成的数据集。流水线在生成并收集技术元数据和操作元数据的结构化框架上执行。技术元数据包括数据集名称、类型、架构、字段、创建时间和处理信息。Cloud Data Fusion 元数据搜索和沿袭功能会使用此技术信息。

Cloud Data Fusion 还支持为包含业务元数据的数据集添加注释,例如标签和键值属性,可用作搜索条件。例如,要在“原始送货数据”数据集上添加并搜索业务标签注释,请执行以下操作:

  1. 点击“送货数据清理”流水线页面上的“原始送货数据”节点的属性按钮,以打开 Cloud Storage 属性页面。

  2. 点击查看元数据以打开搜索页面。

  3. 业务标签下,点击 +,然后插入标签名称(允许使用字母数字字符和下划线字符),然后按 Enter 键。

探索沿袭

数据集层级沿袭

点击探索数据集中的“搜索”页面上列出的“经过清理的送货”数据集名称,然后点击“沿袭”标签页。沿袭图表显示此数据集是由已使用“原始送货数据”数据集的“送货数据清理”流水线生成的。

借助左右箭头,您可以向后/前导航任何前后数据集沿袭。在此示例中,该图表显示了“经过清理的送货”数据集的完整沿袭。

字段层级沿袭

Cloud Data Fusion 字段层级沿袭显示了数据集的字段与对一组字段执行以生成一组不同字段的转换之间的关系。与数据集层级沿袭一样,字段层级沿袭具有时限性,其结果会随时间发生变化。

接着数据集层级沿袭步骤继续执行操作,点击“经过清理的送货”数据集层级沿袭图表右上角的“字段层级沿袭”按钮,以显示其字段层级沿袭图表。

字段层级沿袭图表显示字段之间的连接。您可以选择某个字段以查看其沿袭。选择查看 > 固定字段,仅查看该字段的沿袭。

依次选择查看 > 查看影响以执行影响分析。

“原因”和“影响”链接以简明易懂的账本格式显示在字段两侧执行的转换。此信息对于报告和管理而言至关重要。

清除数据

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

学完本教程后,请清理您在Google Cloud 上创建的资源,以避免这些资源占用配额,日后产生费用。以下部分介绍如何删除或关闭这些资源。

删除教程数据集

本教程会创建一个 logistics_demo 数据集,其中包含您项目中的多个表。

您可以从 Google Cloud 控制台中的 BigQuery 网页界面删除数据集。

删除 Cloud Data Fusion 实例

按照说明删除 Cloud Data Fusion 实例

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

后续步骤