Dataplex でリネージを表示する

このページでは、検出とガバナンスを目的として、Cloud Data Fusion パイプラインによって生成されたデータリネージを、Google Cloud の他のデータ移動とともに表示する方法について説明します。コンソールの [Dataplex] ページでサポートされているデータソースのリネージグラフを表示することも、Data Lineage API を使用して完全なデータリネージ レコードを取得することもできます。

Dataplex データリネージをサポートするプラグイン

Cloud Data Fusion と Dataplex は、次のプラグインのアセットレベルのリネージをサポートしています。

  • Amazon S3
  • BigQuery
  • BigQuery マルチテーブル シンク(バージョン 6.9.1 以降)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • 汎用データベース
  • HTTP
  • MSSQL / SQL Server
  • 複数のデータベース テーブルのソース(バージョン 6.9.1 以降)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP Table

詳細については、Cloud Data Fusion のプラグインをご覧ください。

準備

コンソールの [Dataplex] ページで Cloud Data Fusion のリネージグラフを表示できるようにするには、次の手順を行います。

  1. サポートされているプラグインのみを使用するデータ パイプラインを作成します。

  2. Cloud Data Fusion インスタンスを含むプロジェクトで Data Lineage API を有効にします

  3. Cloud Data Fusion マネージド サービス アカウント、Cloud Data Fusion API サービス エージェントに、データリネージ イベント プロデューサーのロール(roles/datalineage.producer)付与します。このプロセスは、インスタンスを以前のバージョンの Cloud Data Fusion で実行し、RBAC が有効になっている場合は異なります。

    6.10 以降または RBAC なし

    Cloud Data Fusion インスタンスでバージョン 6.10.0 以降を使用している場合、またはインスタンスで以前のバージョンを使用していて RBAC が有効になっていない場合は、次の手順を行います。

    1. Google Cloud コンソールの [IAM] ページに移動します。

      [IAM] に移動

    2. [Google 提供のロール付与を含める] チェックボックスをオンにします。

    3. Cloud Data Fusion API サービス エージェントのサービス アカウントを選択し、 [編集] をクリックします。

    4. [別のロールを追加] をクリックして、[データリネージ イベント プロデューサー] ロールを選択します。

    5. [保存] をクリックします。

    RBAC ありで 6.10 未満

    Cloud Data Fusion インスタンスが 6.10.0 より前のバージョンを使用していて、RBAC が有効になっている場合、サービス アカウントは IAM ページのプリンシパルのリストに表示されません。サービス アカウント名を手動で入力する必要があります。

    必要なロールを付与するには、次の手順を行います。

    1. Google Cloud コンソールの [IAM] ページに移動します。

      IAM に移動

    2. [アクセス権を付与] をクリックします。

    3. [新しいプリンシパル] フィールドに、Cloud Data Fusion API サービス エージェントのサービス アカウントを入力します。datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com 形式を使用します。

      TENANT_PROJECT_ID をインスタンスのテナント ID に置き換えます。テナント プロジェクト ID を表示するには、[インスタンス] ページに移動し、インスタンスの詳細を表示するインスタンス名をクリックします。

      [インスタンス] に移動

    4. [データリネージ イベント プロデューサー] ロールを選択します。

    5. [保存] をクリックします。

Cloud Data Fusion で Dataplex データリネージを有効にする

Cloud Data Fusion の新しいインスタンスでは、Dataplex データリネージがデフォルトで無効になっています。2024 年 1 月 27 日より前にバージョン 6.8.0 以降を使用してインスタンスを作成した場合は、始める前にの手順を完了すると、デフォルトで有効になります。

インスタンスの作成時に Dataplex データリネージを有効にする

コンソール

インスタンスの作成時に Dataplex データリネージを有効にするには、次の手順を行います。

  1. Cloud Data Fusion の [インスタンス] ページに移動し、[インスタンスを作成] をクリックします。

    インスタンスの作成

  2. インスタンスを構成するときに、[詳細オプション] セクションを展開し、[Dataplex データリネージとの統合を有効にする] をクリックします。インスタンスの作成の詳細については、一般公開インスタンスの作成をご覧ください。

REST API

インスタンスを作成するときに Dataplex データリネージを有効にするには、オプションの dataplex_data_lineage_integration_enabled プロパティを true に設定します。

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

無効にするには、プロパティを false に設定するか、プロパティを省略します。これは、新しいインスタンスの作成時に、リネージがデフォルトで無効になるためです。

既存のインスタンスで Dataplex データリネージを有効または無効にする

コンソール

Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを有効または無効にするには、次の手順を行います。

  1. インスタンスの詳細を表示します。
    1. Google Cloud コンソールで、Cloud Data Fusion のページに移動します。

    2. [インスタンス] をクリックし、インスタンスの名前をクリックして [インスタンスの詳細] ページに移動します。

      [インスタンス] に移動

  2. [Dataplex データリネージ統合] フィールドで、[編集] をクリックします。
  3. Dataplex データリネージを有効または無効にして、[保存] をクリックします。

REST API

Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを有効にするには、dataplex_data_lineage_integration_enabled プロパティを true に設定し、updateMask パラメータ値を含めます。

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを無効にするには、dataplex_data_lineage_integration_enabled プロパティを false に設定し、updateMask パラメータ値を含めます。

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

データ リネージグラフを表示する

すべての Google Cloud サービスにあるエンティティのリネージグラフを表示するには、次の操作を行います。

  1. Cloud Data Fusion のインスタンスに移動し、サポートされているプラグインを使用するデータ パイプラインを実行します。

  2. コンソールの [Dataplex] ページでリネージグラフを表示し、リネージ情報を表示するアセットを見つけます。

制限事項

Dataplex でリネージを表示する場合は、次の制限があります。

次のステップ