跟踪 BigQuery 表的数据沿袭
通过数据沿袭,您可以跟踪数据在系统中的移动方式:数据的来源、传入的位置以及应用了哪些转换。
了解如何开始跟踪 BigQuery 复制和查询作业的数据沿袭:
从公开提供的
new_york_taxi_trips
数据集中复制两个表。将两个表中的出租车行程总数合并到一个新表中。
查看全部三个操作的沿袭可视化图。
准备工作
设置您的项目:
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Data Catalog, BigQuery, and data lineage API。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Data Catalog, BigQuery, and data lineage API。
所需的角色
如需获得查看沿袭可视化图表所需的权限,请让管理员向您授予以下 IAM 角色:
-
Data Catalog 资源项目的 Data Catalog Viewer (
roles/datacatalog.viewer
) -
对您使用 BigQuery 的项目拥有数据沿袭查看器 (
roles/datalineage.viewer
) -
针对您使用 BigQuery 的项目拥有 BigQuery Data Viewer (
roles/bigquery.dataViewer
) 的权限
如需详细了解如何授予角色,请参阅管理访问权限。
将公共数据集添加到您的项目
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,点击添加。
在添加窗格中,搜索
Public datasets
,然后选择公共数据集结果。在 Marketplace 窗格中,搜索
NYC TLC Trips
,然后点击 NYC TLC Trips 结果。点击查看数据集。
此步骤会将数据集 new_york_taxi_trips 添加到您的项目中。详细信息窗格中会显示数据集信息,包括数据集 ID、数据位置和上次修改日期等信息。
在项目中创建数据集
在探索器窗格中,选择要在哪个项目中创建数据集。
点击
操作图标,然后点击创建数据集。在创建数据集页面的数据集 ID 字段中输入:
data_lineage_demo
。其他字段保留默认值。点击创建数据集。
在探索器窗格中,点击新添加的
data_lineage_demo
。
“详细信息”窗格会显示其数据集信息。
将两个可公开访问的表复制到数据集
打开查询编辑器:在“详细信息”窗格中,点击名为
data_lineage_demo
的标签页旁边的 (编写新查询)。此步骤会创建一个名为Untitled
的标签页。在查询编辑器中,输入以下查询来复制第一个表。将
PROJECT_ID
替换为您的项目标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
点击
Run。此步骤会创建第一个表,名为nyc_green_trips_2021
。在查询结果窗格中,点击转至表。此步骤会显示第一个表的内容。
在查询编辑器中,通过将前一个查询替换为以下查询来复制第二个表。将
PROJECT_ID
替换为您的项目标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
点击
Run。此步骤将创建名为nyc_green_trips_2022
的第二个表。在查询结果窗格中,点击转至表。此步骤会显示第二个表的内容。
将数据汇总到新表中
在查询编辑器中,输入以下查询。请将
PROJECT_ID
替换为您的项目标识符。CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
点击
Run。此步骤会创建一个名为total_green_trips_22_21
的组合表。在查询结果窗格中,点击转至表。此步骤会显示合并后的表格。
在 Dataplex 中查看沿袭图
打开 Dataplex 搜索页面。
在搜索框中输入
total_green_trips_22_21
,然后点击搜索。在结果列表中,点击
total_green_trips_22_21
。此步骤会显示 BigQuery 表详细信息标签页。点击沿袭标签页。
在沿袭图中,每个矩形节点代表一个表,可以是原始表、复制表或组合表。您可以执行以下操作:
点击 +(展开)或 -(收起),显示或隐藏表格的原点。
通过点击节点显示表信息。此步骤会显示一个节点详细信息窗格。
点击 进程图标即可显示进程信息。此步骤会显示一个进程详细信息窗格,其中显示了将源表转换为目标表的作业。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
删除项目
若要避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
删除数据集
转到 BigQuery 页面。
在探索器窗格中,搜索您创建的
data_lineage_demo
数据集。右键点击数据集,然后选择删除。
确认删除操作。
后续步骤
- 详细了解 Dataplex 和 数据沿袭。
- 了解如何运行 BigQuery 查询。
- 了解如何使用数据沿袭和查看数据沿袭图。
- 了解 Dataplex 价格和billing。