跟踪 BigQuery 表的数据沿袭

借助数据沿袭,您可以跟踪数据在系统中是如何移动的:数据来自何处、传递到哪里以及对数据应用了哪些转换。

了解如何开始跟踪 BigQuery 复制和查询作业的数据沿袭:

  1. 从公开可用的 new_york_taxi_trips 数据集中复制两个表。

  2. 将两个表中的出租车行程总数合并到一个新表中。

  3. 查看所有三个操作的沿袭可视化图。

准备工作

设置您的项目:

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

所需的角色

如需获取查看沿袭可视化图所需的权限,请让管理员授予您以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将公共数据集添加到项目中

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击添加

  3. 添加窗格中,搜索 Public datasets,然后选择公共数据集结果。

  4. Marketplace 窗格中,搜索 NYC TLC Trips,然后点击 NYC TLC Trips 结果。

  5. 点击查看数据集

此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详细信息窗格显示数据集信息,包括数据集 ID数据位置上次修改日期等信息。

在项目中创建数据集

  1. 探索器窗格中,选择要创建数据集的项目。

  2. 点击 操作图标,然后点击创建数据集

  3. 创建数据集页面的数据集 ID 字段中,输入:data_lineage_demo。其他字段保留默认值。

  4. 点击创建数据集

  5. 探索器窗格中,点击新添加的 data_lineage_demo

详细信息窗格会显示其数据集信息

将两个可公开访问的表复制到您的数据集

  1. 打开查询编辑器:在详细信息窗格中,点击名为 data_lineage_demo 的标签页旁边的 (编写新查询)。此步骤会创建一个名为 Untitled 的标签页。

  2. 在查询编辑器中,通过输入以下查询来复制第一个表。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. 点击 Run。此步骤会创建名为 nyc_green_trips_2021 的第一个表。

  4. 查询结果窗格中,点击转到表。此步骤会显示第一个表的内容。

  5. 在查询编辑器中,通过将先前的查询替换为以下查询来复制第二个表。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. 点击 Run。此步骤会创建名为 nyc_green_trips_2022 的第二个表。

  7. 查询结果窗格中,点击转到表。此步骤显示第二个表的内容。

将数据汇总到新表中

  1. 在查询编辑器中,输入以下查询。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. 点击 Run。此步骤会创建一个名为 total_green_trips_22_21 的组合表。

  3. 查询结果窗格中,点击转到表。此步骤会显示组合表。

查看 Dataplex 中的沿袭图

  1. 打开 Dataplex 的“搜索”页面。

    打开 Dataplex 搜索

  2. 选择搜索平台部分,选择 Data Catalog 作为搜索模式。

  3. 搜索框中,输入 total_green_trips_22_21,然后点击搜索

  4. 在结果列表中,点击 total_green_trips_22_21。此步骤会显示 BigQuery 表的详细信息标签页。

  5. 点击沿袭标签页。

total_green_trips_22_21 表格的屏幕截图,其中详情面板停靠在底部。
图 1.具有节点详细信息的数据沿袭

在沿袭图中,每个矩形节点代表一个表,可以是原始表、复制表或组合表。您可以执行以下操作:

  • 通过点击 +(展开)或 -(收起)显示或隐藏表的来源。

  • 通过点击节点显示表信息。此步骤会显示一个节点详细信息窗格。

  • 点击 沿袭过程图标 进程图标即可显示进程信息。此步骤会显示一个进程详细信息窗格,其中显示将源表转换为目标表的作业。

中间方 nyc_green_trips_2021 表格的屏幕截图,其中详细信息面板停靠在底部。
图 2.包含进程详情的数据沿袭

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

若要避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除数据集

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,搜索您创建的 data_lineage_demo 数据集。

  3. 右键点击数据集,然后选择删除

  4. 确认删除操作。

后续步骤