本页介绍了如何查看您的 Cloud Data Fusion 流水线生成的数据沿袭以及 Google Cloud 上的其他数据移动,以用于发现和治理目的。您可以在控制台的 Dataplex 页面上查看受支持的数据源的谱系图,也可以使用 Data Lineage API 检索完整的数据谱系记录。
支持 Dataplex 数据沿袭的插件
Cloud Data Fusion 和 Dataplex 支持资产级 以下插件的沿袭:
- Amazon S3
- BigQuery
- BigQuery 多表接收器(6.9.1 版及更高版本)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Dataplex
- FTP
- 通用数据库
- HTTP
- MSSQL/SQL Server
- 多个数据库表源(版本 6.9.1 及更高版本)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP 表
如需了解详情,请参阅 Cloud Data Fusion 插件。
准备工作
如需在控制台中的 Dataplex 页面上查看 Cloud Data Fusion 沿袭图表,请执行以下操作:
授予 Data Lineage Events Producer 角色 (
roles/datalineage.producer
) Cloud Data Fusion 代管式服务账号,即 Cloud Data Fusion API 服务 代理。 如果实例在旧版 已启用 Cloud Data Fusion 和 RBAC。6.10 及更高版本或无 RBAC
如果您的 Cloud Data Fusion 实例使用 6.10.0 或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:
在 Google Cloud 控制台中,转到 IAM 页面。
选中包括 Google 提供的角色授权复选框。
选择 Cloud Data Fusion API 服务代理服务账号,然后 点击
修改。点击添加其他角色,然后选择数据传承事件生产方角色。
点击保存。
使用 RBAC 的 6.10 以下版本
如果您的 Cloud Data Fusion 实例使用的版本低于 6.10.0 且 RBAC 启用后,该服务账号不会出现在 IAM 页面上的主账号列表。您必须手动输入服务账号名称。
如需授予所需的角色,请按以下步骤操作:
在 Cloud Data Fusion 中启用 Dataplex 数据沿袭
对于 Cloud Data Fusion 中的新实例,Dataplex 数据 沿袭默认处于关闭状态如果您在 1 月 27 日之前创建实例, 6.8.0 或更高版本,在完成 准备工作中的步骤。
创建实例时启用 Dataplex 数据沿袭
控制台
如需在创建实例时启用 Dataplex 数据沿袭, 请按以下步骤操作:
REST API
如需在创建实例时启用 Dataplex 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled
属性设置为 true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
如需停用此功能,请将该属性设置为 false 或省略该属性,因为在您创建新实例时,系统会默认停用谱系。
在现有实例中启用或停用 Dataplex 数据沿袭
控制台
如需在以下位置启用或停用 Dataplex 数据沿袭: Cloud Data Fusion,请按以下步骤操作:
- 查看实例详情:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
点击实例,然后点击相应实例的名称以转到实例详情页面。
- 在 Dataplex 数据沿袭集成字段中,点击修改。
- 启用或停用 Dataplex 数据沿袭,然后点击 保存。
REST API
如需在以下位置中的现有实例中启用 Dataplex 数据沿袭
Cloud Data Fusion,请设置 dataplex_data_lineage_integration_enabled
属性设置为 true
,并添加 updateMask
参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
如需在以下位置停用现有实例中的 Dataplex 数据沿袭
Cloud Data Fusion,请设置 dataplex_data_lineage_integration_enabled
属性设置为 false
,并添加 updateMask
参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
查看数据沿袭图
如需查看所有 Google Cloud 服务中实体的谱系图,请执行以下操作:
前往 Cloud Data Fusion 中的实例,然后运行使用受支持插件的数据流水线。
在控制台的 Dataplex 页面上查看沿袭图 并找到要查看其沿袭信息的资产。
限制
在 Dataplex 中查看沿袭具有以下限制:
Dataplex 中的沿袭只有在存在 已连接到受支持的插件的 BigQuery 实体。有关 有关何时提供数据沿袭图的信息,请参阅 数据沿袭简介。
Data Lineage API 不支持客户管理的加密密钥 (CMEK)。
Cloud Data Fusion 在
me-central1
不支持此功能,或者europe-west12
个营业地点。查看数据沿袭注意事项。
后续步骤
- 详细了解数据沿袭。