跟踪 BigQuery 表的数据沿袭

数据沿袭 您可以跟踪数据在系统中的移动情况:数据来自哪里、 以及对该对象应用了哪些转换。

了解如何开始跟踪以下服务的数据沿袭: BigQuery 复制和查询作业:

  1. 从公开可用的 new_york_taxi_trips 数据集中复制两个表。

  2. 将两个表中的出租车行程总数合并到一个新表中。

  3. 查看所有三个操作的沿袭可视化图。

准备工作

设置您的项目:

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

<ph type="x-smartling-placeholder">

所需的角色

如需获取查看沿袭可视化图所需的权限, 请让管理员向您授予 以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将公共数据集添加到项目中

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击添加

  3. Add(添加)窗格中,搜索 Public datasets,然后选择 公共数据集结果。

  4. Marketplace 窗格中,搜索“NYC TLC Trips”,然后点击 NYC TLC Trips(纽约市 TLC 行程)结果。

  5. 点击查看数据集

此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详细信息 窗格会显示数据集信息,其中包括 数据集 ID数据位置上次修改日期。

在项目中创建数据集

  1. 探索器窗格中,选择要在哪个项目中创建 数据集。

  2. 点击 操作图标,然后点击创建 数据集

  3. 创建数据集页面的数据集 ID 字段中,输入: data_lineage_demo.其他字段保留默认值。

  4. 点击创建数据集

  5. 探索器窗格中,点击新添加的 data_lineage_demo

详细信息窗格会显示其数据集信息

将两个可公开访问的表复制到您的数据集

  1. 打开查询编辑器:在详细信息窗格中, data_lineage_demo,点击“” (编写新查询)。此步骤会创建一个名为 Untitled 的标签页。

  2. 在查询编辑器中,通过输入以下命令复制第一个表 查询。将 PROJECT_ID 替换为您的项目 标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. 点击 Run。此步骤 创建第一个表,名为 nyc_green_trips_2021

  4. 查询结果窗格中,点击转到表。此步骤会显示 第一个表的内容。

  5. 在查询编辑器中,通过替换前面的表来复制第二个表 。将 PROJECT_ID 替换为您的 项目的 标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. 点击 Run。此步骤 创建第二个表,名为 nyc_green_trips_2022

  7. 查询结果窗格中,点击转到表。此步骤会显示 第二个表的内容

将数据汇总到新表中

  1. 在查询编辑器中,输入以下查询。将 PROJECT_ID 替换为 您的 项目的 标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. 点击 Run。此步骤 会创建一个名为 total_green_trips_22_21 的组合表。

  3. 查询结果窗格中,点击转到表。此步骤会显示 组合表格

查看 Dataplex 中的沿袭图

  1. 打开 Dataplex 的“搜索”页面。

    打开 Dataplex 搜索

  2. 选择搜索平台部分,选择 Data Catalog 作为搜索模式。

  3. 搜索框中,输入 total_green_trips_22_21,然后点击搜索

  4. 在结果列表中,点击 total_green_trips_22_21。此步骤会显示 找到 BigQuery 表的详细信息标签页。

  5. 点击沿袭标签页。

<ph type="x-smartling-placeholder">
</ph> total_green_trips_22_21 表格的屏幕截图,其中详情面板停靠在底部。
图 1.具有节点详细信息的数据沿袭

在沿袭图中,每个矩形节点代表一个表,可能是 原始表、复制表或组合表。您可以执行以下操作:

  • 点击 +(展开)或 - 可显示或隐藏表格的来源 (收起)。

  • 通过点击节点显示表信息。此步骤显示了 详细信息窗格。

  • 点击 沿袭过程图标 可显示进程信息 进程图标。此步骤会显示显示作业的进程详细信息窗格 用于将源表转换为目标表的操作。

中间方 nyc_green_trips_2021 表格的屏幕截图,其中详细信息面板停靠在底部。
图 2.包含进程详情的数据沿袭

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除数据集

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,搜索您要创建的 data_lineage_demo 数据集, 创建。

  3. 右键点击数据集,然后选择删除

  4. 确认删除操作。

后续步骤