跟踪 BigQuery 表的数据沿袭
数据沿袭 您可以跟踪数据在系统中的移动情况:数据来自哪里、 以及对该对象应用了哪些转换。
了解如何开始跟踪以下服务的数据沿袭: BigQuery 复制和查询作业:
从公开可用的
new_york_taxi_trips
数据集中复制两个表。将两个表中的出租车行程总数合并到一个新表中。
查看所有三个操作的沿袭可视化图。
准备工作
设置您的项目:
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
启用 Data Catalog, BigQuery, and data lineage API。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
启用 Data Catalog, BigQuery, and data lineage API。
所需的角色
如需获取查看沿袭可视化图所需的权限, 请让管理员授予您 以下 IAM 角色:
-
Data Catalog Viewer (
roles/datacatalog.viewer
) (针对 Data Catalog 资源项目) -
数据沿袭查看器 (
roles/datalineage.viewer
) 使用 BigQuery 的项目上 -
BigQuery Data Viewer (
roles/bigquery.dataViewer
) 使用 BigQuery 的项目上
如需详细了解如何授予角色,请参阅管理访问权限。
将公共数据集添加到项目中
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,点击添加。
在 Add(添加)窗格中,搜索
Public datasets
,然后选择 公共数据集结果。在 Marketplace 窗格中,搜索“
NYC TLC Trips
”,然后点击 NYC TLC Trips(纽约市 TLC 行程)结果。点击查看数据集。
此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详细信息 窗格会显示数据集信息,其中包括 数据集 ID、数据位置和上次修改日期。
在项目中创建数据集
在探索器窗格中,选择要在哪个项目中创建 数据集。
点击
操作图标,然后点击创建 数据集。在创建数据集页面的数据集 ID 字段中,输入:
data_lineage_demo
。其他字段保留默认值。点击创建数据集。
在探索器窗格中,点击新添加的
data_lineage_demo
。
详细信息窗格会显示其数据集信息。
将两个可公开访问的表复制到您的数据集
打开查询编辑器:在详细信息窗格中,
data_lineage_demo
,点击“ ” (编写新查询)。此步骤会创建一个名为Untitled
的标签页。在查询编辑器中,通过输入以下命令复制第一个表 查询。将
PROJECT_ID
替换为您的项目 标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
点击
Run。此步骤 创建第一个表,名为nyc_green_trips_2021
。在查询结果窗格中,点击转到表。此步骤会显示 第一个表的内容。
在查询编辑器中,通过替换前面的表来复制第二个表 。将
PROJECT_ID
替换为您的 项目的 标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
点击
Run。此步骤 创建第二个表,名为nyc_green_trips_2022
。在查询结果窗格中,点击转到表。此步骤会显示 第二个表的内容
将数据汇总到新表中
在查询编辑器中,输入以下查询。将
PROJECT_ID
替换为 您的 项目的 标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
点击
Run。此步骤 会创建一个名为total_green_trips_22_21
的组合表。在查询结果窗格中,点击转到表。此步骤会显示 组合表格
查看 Dataplex 中的沿袭图
打开 Dataplex 的“搜索”页面。
在选择搜索平台部分,选择 Data Catalog 作为搜索模式。
在搜索框中,输入
total_green_trips_22_21
,然后点击搜索。在结果列表中,点击
total_green_trips_22_21
。此步骤会显示 找到 BigQuery 表的详细信息标签页。点击沿袭标签页。
![total_green_trips_22_21 表格的屏幕截图,其中详情面板停靠在底部。](https://cloud.google.com/static/data-catalog/images/lineage_total_end_screen.png?hl=zh-cn)
在沿袭图中,每个矩形节点代表一个表,可能是 原始表、复制表或组合表。您可以执行以下操作:
点击 +(展开)或 - 可显示或隐藏表格的来源 (收起)。
通过点击节点显示表信息。此步骤显示了 详细信息窗格。
点击
可显示进程信息 进程图标。此步骤会显示显示作业的进程详细信息窗格 用于将源表转换为目标表的操作。
![中间方 nyc_green_trips_2021 表格的屏幕截图,其中详细信息面板停靠在底部。](https://cloud.google.com/static/data-catalog/images/lineage_intermediary_table_screen.png?hl=zh-cn)
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
删除数据集
转到 BigQuery 页面。
在探索器窗格中,搜索您要创建的
data_lineage_demo
数据集, 创建。右键点击数据集,然后选择删除。
确认删除操作。
后续步骤
- 详细了解 Dataplex 和 数据沿袭。
- 了解如何运行 BigQuery 查询。
- 了解如何使用 数据沿袭和视图 数据沿袭 图表。
- 了解 Dataplex 价格和 结算。