查看 Dataplex 中的沿袭

本页介绍了如何查看您的 Cloud Data Fusion 流水线生成的数据沿袭以及 Google Cloud上的其他数据移动,以用于发现和治理目的。您可以在控制台的 Dataplex 页面上查看受支持的数据源的谱系图,也可以使用 Data Lineage API 检索完整的数据谱系记录。

支持 Dataplex 数据沿袭的插件

Cloud Data Fusion 和 Dataplex 支持以下插件的资产级沿袭:

  • Amazon S3
  • BigQuery
  • BigQuery 多表接收器(版本 6.9.1 及更高版本)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • 通用数据库
  • HTTP
  • MSSQL/SQL Server
  • 多个数据库表源(版本 6.9.1 及更高版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 表

如需了解详情,请参阅 Cloud Data Fusion 插件

准备工作

如需在控制台中的 Dataplex 页面上查看 Cloud Data Fusion 沿袭图表,请执行以下操作:

  1. 创建数据流水线,仅使用受支持的插件

  2. 在包含 Cloud Data Fusion 实例的项目中启用 Data Lineage API

  3. 向 Cloud Data Fusion 管理的服务账号 Cloud Data Fusion API Service Agent 授予“数据传承事件生产者”角色 (roles/datalineage.producer)。如果您的实例在较低版本的 Cloud Data Fusion 中运行且已启用 RBAC,则该过程会有所不同。

    6.10 或更高版本,或者不使用 RBAC

    如果您的 Cloud Data Fusion 实例使用 6.10.0 或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权复选框。

    3. 选择 Cloud Data Fusion API Service Agent 服务账号,然后点击 修改

    4. 点击添加其他角色,然后选择 Data Lineage Events Producer 角色。

    5. 点击保存

    6.10 以下版本(支持 RBAC)

    如果您的 Cloud Data Fusion 实例使用的是低于 6.10.0 的版本,并且已启用 RBAC,则服务账号不会显示在 IAM 页面上的正文列表中。您必须手动输入服务账号名称。

    如需授予所需的角色,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 点击授予访问权限

    3. 新主账号字段中,输入 Cloud Data Fusion API Service Agent 服务账号。请使用以下格式:datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替换为实例的租户 ID。如需查看租户项目 ID,请前往实例页面,然后点击实例名称以查看实例详情。

      转到实例

    4. 选择 Data Lineage Events Producer 角色。

    5. 点击保存

在 Cloud Data Fusion 中启用 Dataplex 数据沿袭

对于 Cloud Data Fusion 中的新实例,Dataplex 数据沿袭默认处于关闭状态。如果您在 2024 年 1 月 27 日之前使用版本 6.8.0 或更高版本创建了实例,则在您完成开始前须知中的步骤后,该功能会默认处于启用状态。

在创建实例时启用 Dataplex 数据沿袭

控制台

如需在创建实例时启用 Dataplex 数据谱系,请按以下步骤操作:

  1. 前往 Cloud Data Fusion 实例页面,然后点击创建实例

    创建实例

  2. 配置实例时,展开高级选项部分,然后点击启用与 Dataplex 数据沿袭的集成。如需详细了解如何创建实例,请参阅创建公共实例

REST API

如需在创建实例时启用 Dataplex 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled 属性设置为 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如需停用此功能,请将该属性设置为 false 或省略该属性,因为在您创建新实例时,系统会默认停用谱系。

在现有实例中启用或停用 Dataplex 数据沿袭

控制台

如需在 Cloud Data Fusion 中的现有实例中启用或停用 Dataplex 数据沿袭,请按以下步骤操作:

  1. 查看实例详情:
    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 点击实例,然后点击实例名称以前往实例详情页面。

      转到实例

  2. Dataplex 数据沿袭集成字段中,点击修改
  3. 启用或停用 Dataplex 数据沿袭,然后点击保存

REST API

如需在 Cloud Data Fusion 中的现有实例中启用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 true,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如需在 Cloud Data Fusion 中的现有实例中停用 Dataplex 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 false,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看数据沿袭图

如需查看所有 Google Cloud 服务中实体的谱系图,请执行以下操作:

  1. 前往 Cloud Data Fusion 中的实例,然后运行使用受支持插件的数据流水线。

  2. 在控制台中的 Dataplex 页面上查看谱系图,然后找到您要查看谱系信息的资产。

限制

在 Dataplex 中查看沿袭有以下限制:

后续步骤