本页介绍了如何查看您的 Cloud Data Fusion 流水线生成的数据沿袭以及 Google Cloud上的其他数据移动,以用于发现和治理目的。您可以在控制台的 Dataplex 页面上查看受支持的数据源的谱系图,也可以使用 Data Lineage API 检索完整的数据谱系记录。
支持 Dataplex 数据沿袭的插件
Cloud Data Fusion 和 Dataplex 支持以下插件的资产级沿袭:
- Amazon S3
- BigQuery
- BigQuery 多表接收器(版本 6.9.1 及更高版本)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Dataplex
- FTP
- 通用数据库
- HTTP
- MSSQL/SQL Server
- 多个数据库表源(版本 6.9.1 及更高版本)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP 表
如需了解详情,请参阅 Cloud Data Fusion 插件。
准备工作
如需在控制台中的 Dataplex 页面上查看 Cloud Data Fusion 沿袭图表,请执行以下操作:
在包含 Cloud Data Fusion 实例的项目中启用 Data Lineage API。
向 Cloud Data Fusion 管理的服务账号 Cloud Data Fusion API Service Agent 授予“数据传承事件生产者”角色 (
roles/datalineage.producer
)。如果您的实例在较低版本的 Cloud Data Fusion 中运行且已启用 RBAC,则该过程会有所不同。6.10 或更高版本,或者不使用 RBAC
如果您的 Cloud Data Fusion 实例使用 6.10.0 或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:
在 Google Cloud 控制台中,转到 IAM 页面。
选中包括 Google 提供的角色授权复选框。
选择 Cloud Data Fusion API Service Agent 服务账号,然后点击
修改。点击添加其他角色,然后选择 Data Lineage Events Producer 角色。
点击保存。
6.10 以下版本(支持 RBAC)
如果您的 Cloud Data Fusion 实例使用的是低于 6.10.0 的版本,并且已启用 RBAC,则服务账号不会显示在 IAM 页面上的正文列表中。您必须手动输入服务账号名称。
如需授予所需的角色,请按以下步骤操作:
在 Cloud Data Fusion 中启用 Dataplex 数据沿袭
对于 Cloud Data Fusion 中的新实例,Dataplex 数据沿袭默认处于关闭状态。如果您在 2024 年 1 月 27 日之前使用版本 6.8.0 或更高版本创建了实例,则在您完成开始前须知中的步骤后,该功能会默认处于启用状态。
在创建实例时启用 Dataplex 数据沿袭
控制台
如需在创建实例时启用 Dataplex 数据谱系,请按以下步骤操作:
REST API
如需在创建实例时启用 Dataplex 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled
属性设置为 true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
如需停用此功能,请将该属性设置为 false 或省略该属性,因为在您创建新实例时,系统会默认停用谱系。
在现有实例中启用或停用 Dataplex 数据沿袭
控制台
如需在 Cloud Data Fusion 中的现有实例中启用或停用 Dataplex 数据沿袭,请按以下步骤操作:
- 查看实例详情:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
点击实例,然后点击实例名称以前往实例详情页面。
- 在 Dataplex 数据沿袭集成字段中,点击修改。
- 启用或停用 Dataplex 数据沿袭,然后点击保存。
REST API
如需在 Cloud Data Fusion 中的现有实例中启用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled
属性设置为 true
,并添加 updateMask
参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
如需在 Cloud Data Fusion 中的现有实例中停用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled
属性设置为 false
,并添加 updateMask
参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
查看数据沿袭图
如需查看所有 Google Cloud 服务中实体的谱系图,请执行以下操作:
前往 Cloud Data Fusion 中的实例,然后运行使用受支持插件的数据流水线。
在控制台中的 Dataplex 页面上查看谱系图,然后找到您要查看谱系信息的资产。
限制
在 Dataplex 中查看沿袭有以下限制:
只有当有与受支持的插件关联的 BigQuery 实体时,才能发现 Dataplex 中的谱系。如需详细了解数据沿袭图何时可用,请参阅数据沿袭简介。
Data Lineage API 不支持客户管理的加密密钥 (CMEK)。
Cloud Data Fusion 不支持在
me-central1
或europe-west12
位置使用此功能。查看数据沿袭注意事项。
后续步骤
- 详细了解数据沿袭。