查看 Dataplex 中的沿袭

本页面介绍如何查看 Cloud Data Fusion 流水线生成的数据沿袭以及 Google Cloud 上的其他数据移动,以用于发现和治理目的。您可以在控制台的 Dataplex 页面上查看受支持的数据源的沿袭图,或使用 Data Lineage API 检索完整的数据沿袭记录。

支持 Dataplex 数据沿袭的插件

Cloud Data Fusion 和 Dataplex 支持以下插件的资产级沿袭:

  • Amazon S3
  • BigQuery
  • BigQuery 多表接收器(6.9.1 及更高版本)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • 通用数据库
  • HTTP
  • MSSQL/SQL Server
  • 多个数据库表源(版本 6.9.1 及更高版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 表

如需了解详情,请参阅 Cloud Data Fusion 插件

准备工作

如需在控制台的 Dataplex 页面上查看 Cloud Data Fusion 沿袭图,请执行以下操作:

  1. 创建仅使用受支持插件 的数据流水线。

  2. 在包含您的 Cloud Data Fusion 实例的项目中启用 Data Lineage API

  3. 将 Data Lineage Events Producer 角色 (roles/datalineage.producer) 授予 Cloud Data Fusion 代管式服务帐号(Cloud Data Fusion API Service Agent)。如果您的实例在早期版本的 Cloud Data Fusion 中运行,并且启用了 RBAC,则过程会有所不同。

    6.10+ 或无 RBAC

    如果您的 Cloud Data Fusion 实例使用 6.10.0 或更高版本,或者实例使用早期版本并且未启用 RBAC,请按照以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权复选框。

    3. 选择 Cloud Data Fusion API Service Agent 服务帐号,然后点击 修改

    4. 点击添加其他角色,然后选择数据沿袭事件生产者角色。

    5. 点击保存

    低于 6.10(使用 RBAC)

    如果您的 Cloud Data Fusion 实例使用 6.10.0 之前的版本并且启用了 RBAC,则该服务帐号不会出现在 IAM 页面的主帐号列表中。您必须手动输入服务帐号名称。

    如需授予所需的角色,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 点击授予访问权限

    3. 新的主帐号字段中,输入 Cloud Data Fusion API Service Agent 服务帐号。请使用以下格式:datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替换为您的实例的租户 ID。如需查看租户项目 ID,请转到实例页面,然后点击实例名称以查看实例详细信息。

      转到实例

    4. 选择数据沿袭事件生产者角色。

    5. 点击保存

在 Cloud Data Fusion 中启用 Dataplex 数据沿袭

对于 Cloud Data Fusion 中的新实例,Dataplex 数据沿袭默认处于关闭状态。如果您在 2024 年 1 月 27 日之前使用 6.8.0 或更高版本创建实例,那么在完成准备工作中的步骤后,该实例会默认处于开启状态。

创建实例时启用 Dataplex 数据沿袭

控制台

如需在创建实例时启用 Dataplex 数据沿袭,请按以下步骤操作:

  1. 转到 Cloud Data Fusion 实例页面,然后点击创建实例

    创建实例

  2. 配置实例时,请展开高级选项部分,然后点击启用与 Dataplex 数据沿袭的集成。如需详细了解如何创建实例,请参阅创建公共实例

REST API

如需在创建实例时启用 Dataplex 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled 属性设置为 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如需关闭它,请将该属性设置为 false 或省略该属性,因为创建新实例时沿袭默认处于关闭状态。

在现有实例中启用或停用 Dataplex 数据沿袭

控制台

如需在 Cloud Data Fusion 中的现有实例中启用或停用 Dataplex 数据沿袭,请按以下步骤操作:

  1. 查看实例详情:
    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 点击实例,然后点击相应实例的名称以转到实例详情页面。

      转到实例

  2. Dataplex 数据沿袭集成字段中,点击修改
  3. 启用或停用 Dataplex 数据沿袭,然后点击保存

REST API

如需在 Cloud Data Fusion 中的现有实例中启用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 true 并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如需在 Cloud Data Fusion 中的现有实例中停用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 false 并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看数据沿袭图

如需查看所有 Google Cloud 服务中实体的沿袭图,请执行以下操作:

  1. 转到 Cloud Data Fusion 中的实例,并运行使用受支持插件的数据流水线。

  2. 在控制台的 Dataplex 页面上查看沿袭图,并找到要查看其沿袭信息的资产。

限制

在 Dataplex 中查看沿袭存在以下限制:

后续步骤