跟踪 BigQuery 表的数据沿袭

借助数据沿袭,您可以跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。

了解如何开始跟踪 BigQuery 复制作业和查询作业的数据谱系:

  1. 从公开的 new_york_taxi_trips 数据集中复制两个表。

  2. 将两个表中的出租车行程总数合并到一个新表中。

  3. 查看这三项操作的沿袭可视化图。

准备工作

设置项目:

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

所需的角色

如需获取查看沿袭可视化图所需的权限, 请让管理员授予您 以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将公共数据集添加到项目中

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击添加

  3. 添加窗格中,搜索 Public datasets,然后选择公共数据集结果。

  4. 市场窗格中,搜索 NYC TLC Trips,然后点击 NYC TLC Trips 结果。

  5. 点击查看数据集

此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详情窗格会显示数据集信息,包括数据集 ID数据位置上次修改日期等信息。

在项目中创建数据集

  1. 探索器窗格中,选择您要在其中创建数据集的项目。

  2. 点击 操作图标,然后点击创建 数据集

  3. 创建数据集页面的数据集 ID 字段中,输入:data_lineage_demo。其他字段保留默认值。

  4. 点击创建数据集

  5. 浏览器窗格中,点击新添加的 data_lineage_demo

详情窗格会显示其数据集信息

将两个可公开访问的表复制到您的数据集

  1. 打开查询编辑器:在“详细信息”窗格中,点击名为 data_lineage_demo 的标签页旁边的 (编写新查询)。此步骤会创建一个名为 Untitled 的标签页。

  2. 在查询编辑器中,输入以下查询以复制第一个表格。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. 点击 Run。此步骤 创建第一个表,名为 nyc_green_trips_2021

  4. 查询结果窗格中,点击转到表。此步骤会显示 第一个表的内容。

  5. 在查询编辑器中,将上一个查询替换为以下查询,以复制第二个表格。将 PROJECT_ID 替换为您的 项目的 标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. 点击 Run。此步骤会创建第二个表,名为 nyc_green_trips_2022

  7. 查询结果窗格中,点击转到表。此步骤会显示第二个表格的内容。

将数据汇总到新表中

  1. 在查询编辑器中,输入以下查询。将 PROJECT_ID 替换为项目的标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. 点击 Run。此步骤会创建一个名为 total_green_trips_22_21 的组合表。

  3. 查询结果窗格中,点击转到表格。此步骤会显示合并的表格。

在 Dataplex 中查看沿袭图

  1. 打开 Dataplex 的“搜索”页面。

    打开 Dataplex 搜索

  2. 对于选择搜索平台,请选择 Data Catalog 作为搜索模式。

  3. 搜索框中,输入 total_green_trips_22_21,然后点击搜索

  4. 在结果列表中,点击 total_green_trips_22_21。此步骤会显示 找到 BigQuery 表的详细信息标签页。

  5. 点击沿袭标签页。

total_green_trips_22_21 表的屏幕截图,其中详细信息面板已固定到底部。
图 1.具有节点详细信息的数据沿袭

在沿袭图中,每个矩形节点代表一个表,可能是 原始表、复制表或合并后的表。您可以执行以下操作:

  • 点击 +(展开)或 -(收起)以显示或隐藏表格的来源。

  • 点击节点可显示表信息。此步骤显示了 详细信息窗格。

  • 点击 谱系流程图标 进程图标可显示进程信息。此步骤会显示显示作业的进程详细信息窗格 用于将源表转换为目标表的操作。

中间表 nyc_green_trips_2021 的屏幕截图,其中详细信息面板已固定到底部。
图 2. 包含流程详细信息的数据沿袭

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

删除数据集

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 浏览器窗格中,搜索您创建的 data_lineage_demo 数据集。

  3. 右键点击相应数据集,然后选择删除

  4. 确认删除操作。

后续步骤