查看 Dataplex 中的沿袭

本页介绍了如何查看您的 Cloud Data Fusion 流水线生成的数据沿袭以及 Google Cloud 上的其他数据移动,以用于发现和治理目的。您可以在控制台的 Dataplex 页面上查看受支持的数据源的谱系图,也可以使用 Data Lineage API 检索完整的数据谱系记录。

支持 Dataplex 数据沿袭的插件

Cloud Data Fusion 和 Dataplex 支持资产级 以下插件的沿袭:

  • Amazon S3
  • BigQuery
  • BigQuery 多表接收器(6.9.1 版及更高版本)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • 通用数据库
  • HTTP
  • MSSQL/SQL Server
  • 多个数据库表源(版本 6.9.1 及更高版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 表

如需了解详情,请参阅 Cloud Data Fusion 插件

准备工作

如需在控制台中的 Dataplex 页面上查看 Cloud Data Fusion 沿袭图表,请执行以下操作:

  1. 创建数据流水线,仅使用受支持的插件

  2. 在包含 Cloud Data Fusion 实例。

  3. 授予 Data Lineage Events Producer 角色 (roles/datalineage.producer) Cloud Data Fusion 代管式服务账号,即 Cloud Data Fusion API 服务 代理。 如果实例在旧版 已启用 Cloud Data Fusion 和 RBAC。

    6.10 及更高版本或无 RBAC

    如果您的 Cloud Data Fusion 实例使用 6.10.0 或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权复选框。

    3. 选择 Cloud Data Fusion API 服务代理服务账号,然后 点击 修改

    4. 点击添加其他角色,然后选择数据传承事件生产方角色。

    5. 点击保存

    使用 RBAC 的 6.10 以下版本

    如果您的 Cloud Data Fusion 实例使用的版本低于 6.10.0 且 RBAC 启用后,该服务账号不会出现在 IAM 页面上的主账号列表。您必须手动输入服务账号名称。

    如需授予所需的角色,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,转到 IAM 页面。

      转到 IAM

    2. 点击授予访问权限

    3. 新的主账号字段中,输入 Cloud Data Fusion API Service Agent 服务账号。请使用以下格式:datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替换为 您的实例的租户 ID。如需查看租户项目 ID,请前往 实例页面,然后点击实例的实例名称 。

      转到实例

    4. 选择 Data Lineage Events Producer 角色。

    5. 点击保存

在 Cloud Data Fusion 中启用 Dataplex 数据沿袭

对于 Cloud Data Fusion 中的新实例,Dataplex 数据 沿袭默认处于关闭状态如果您在 1 月 27 日之前创建实例, 6.8.0 或更高版本,在完成 准备工作中的步骤。

创建实例时启用 Dataplex 数据沿袭

控制台

如需在创建实例时启用 Dataplex 数据沿袭, 请按以下步骤操作:

  1. 前往 Cloud Data Fusion 实例页面,然后点击创建实例

    创建实例

  2. 配置实例时,展开高级选项部分,然后点击启用与 Dataplex 数据沿袭的集成。有关 有关创建实例的信息,请参阅创建公共 实例

REST API

如需在创建实例时启用 Dataplex 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled 属性设置为 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如需停用此功能,请将该属性设置为 false 或省略该属性,因为在您创建新实例时,系统会默认停用谱系。

在现有实例中启用或停用 Dataplex 数据沿袭

控制台

如需在以下位置启用或停用 Dataplex 数据沿袭: Cloud Data Fusion,请按以下步骤操作:

  1. 查看实例详情:
    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 点击实例,然后点击相应实例的名称以转到实例详情页面。

      转到实例

  2. Dataplex 数据沿袭集成字段中,点击修改
  3. 启用或停用 Dataplex 数据沿袭,然后点击 保存

REST API

如需在以下位置中的现有实例中启用 Dataplex 数据沿袭 Cloud Data Fusion,请设置 dataplex_data_lineage_integration_enabled 属性设置为 true,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如需在以下位置停用现有实例中的 Dataplex 数据沿袭 Cloud Data Fusion,请设置 dataplex_data_lineage_integration_enabled 属性设置为 false,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看数据沿袭图

如需查看所有 Google Cloud 服务中实体的谱系图,请执行以下操作:

  1. 前往 Cloud Data Fusion 中的实例,然后运行使用受支持插件的数据流水线。

  2. 在控制台的 Dataplex 页面上查看沿袭图 并找到要查看其沿袭信息的资产。

限制

在 Dataplex 中查看沿袭具有以下限制:

后续步骤