跟踪 BigQuery 表的数据沿袭

通过数据沿袭,您可以跟踪数据在系统中的移动方式:数据的来源、传入的位置以及应用了哪些转换。

了解如何开始跟踪 BigQuery 复制和查询作业的数据沿袭:

  1. 从公开提供的 new_york_taxi_trips 数据集中复制两个表。

  2. 将两个表中的出租车行程总数合并到一个新表中。

  3. 查看全部三个操作的沿袭可视化图。

准备工作

设置您的项目:

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

  5. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Data Catalog, BigQuery, and data lineage API。

    启用 API

所需的角色

如需获得查看沿袭可视化图表所需的权限,请让管理员向您授予以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将公共数据集添加到您的项目

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,点击添加

  3. 添加窗格中,搜索 Public datasets,然后选择公共数据集结果。

  4. Marketplace 窗格中,搜索 NYC TLC Trips,然后点击 NYC TLC Trips 结果。

  5. 点击查看数据集

此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详细信息窗格中会显示数据集信息,包括数据集 ID数据位置上次修改日期等信息。

在项目中创建数据集

  1. 探索器窗格中,选择要在哪个项目中创建数据集。

  2. 点击 操作图标,然后点击创建数据集

  3. 创建数据集页面的数据集 ID 字段中输入:data_lineage_demo。其他字段保留默认值。

  4. 点击创建数据集

  5. 探索器窗格中,点击新添加的 data_lineage_demo

“详细信息”窗格会显示其数据集信息

将两个可公开访问的表复制到数据集

  1. 打开查询编辑器:在“详细信息”窗格中,点击名为 data_lineage_demo 的标签页旁边的 (编写新查询)。此步骤会创建一个名为 Untitled 的标签页。

  2. 在查询编辑器中,输入以下查询来复制第一个表。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. 点击 Run。此步骤会创建第一个表,名为 nyc_green_trips_2021

  4. 查询结果窗格中,点击转至表。此步骤会显示第一个表的内容。

  5. 在查询编辑器中,通过将前一个查询替换为以下查询来复制第二个表。将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. 点击 Run。此步骤将创建名为 nyc_green_trips_2022 的第二个表。

  7. 查询结果窗格中,点击转至表。此步骤会显示第二个表的内容。

将数据汇总到新表中

  1. 在查询编辑器中,输入以下查询。请将 PROJECT_ID 替换为您的项目标识符

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. 点击 Run。此步骤会创建一个名为 total_green_trips_22_21 的组合表。

  3. 查询结果窗格中,点击转至表。此步骤会显示合并后的表格。

在 Dataplex 中查看沿袭图

  1. 打开 Dataplex 搜索页面。

    打开 Dataplex 搜索

  2. 搜索框中输入 total_green_trips_22_21,然后点击搜索

  3. 在结果列表中,点击 total_green_trips_22_21。此步骤会显示 BigQuery 表详细信息标签页。

  4. 点击沿袭标签页。

total_green_trips_22_21 表格的屏幕截图,其中详细信息面板停靠在底部。
图 1.包含节点详细信息的数据沿袭

在沿袭图中,每个矩形节点代表一个表,可以是原始表、复制表或组合表。您可以执行以下操作:

  • 点击 +(展开)或 -(收起),显示或隐藏表格的原点。

  • 通过点击节点显示表信息。此步骤会显示一个节点详细信息窗格。

  • 点击 沿袭进程图标 进程图标即可显示进程信息。此步骤会显示一个进程详细信息窗格,其中显示了将源表转换为目标表的作业。

中转 nyc_green_trips_2021 表格的屏幕截图,详情面板停靠在底部。
图 2.包含进程详情的数据沿袭

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除项目

若要避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

删除数据集

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,搜索您创建的 data_lineage_demo 数据集。

  3. 右键点击数据集,然后选择删除

  4. 确认删除操作。

后续步骤