このページでは、検出とガバナンスを目的として、Cloud Data Fusion パイプラインによって生成されたデータリネージを、Google Cloud の他のデータ移動とともに表示する方法について説明します。コンソールの [Dataplex] ページでサポートされているデータソースのリネージグラフを表示することも、Data Lineage API を使用して完全なデータリネージ レコードを取得することもできます。
Dataplex データリネージをサポートするプラグイン
Cloud Data Fusion と Dataplex は、次のプラグインのアセットレベルのリネージをサポートしています。
- Amazon S3
- BigQuery
- BigQuery マルチテーブル シンク(バージョン 6.9.1 以降)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Dataplex
- FTP
- 汎用データベース
- HTTP
- MSSQL / SQL Server
- 複数のデータベース テーブルのソース(バージョン 6.9.1 以降)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP Table
詳細については、Cloud Data Fusion のプラグインをご覧ください。
準備
コンソールの [Dataplex] ページで Cloud Data Fusion のリネージグラフを表示できるようにするには、次の手順を行います。
サポートされているプラグインのみを使用するデータ パイプラインを作成します。
Cloud Data Fusion インスタンスを含むプロジェクトで Data Lineage API を有効にします。
Cloud Data Fusion マネージド サービス アカウント、Cloud Data Fusion API サービス エージェントに、データリネージ イベント プロデューサーのロール(
roles/datalineage.producer
)付与します。このプロセスは、インスタンスを以前のバージョンの Cloud Data Fusion で実行し、RBAC が有効になっている場合は異なります。6.10 以降または RBAC なし
Cloud Data Fusion インスタンスでバージョン 6.10.0 以降を使用している場合、またはインスタンスで以前のバージョンを使用していて RBAC が有効になっていない場合は、次の手順を行います。
Google Cloud コンソールの [IAM] ページに移動します。
[Google 提供のロール付与を含める] チェックボックスをオンにします。
Cloud Data Fusion API サービス エージェントのサービス アカウントを選択し、
[編集] をクリックします。[別のロールを追加] をクリックして、[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
RBAC ありで 6.10 未満
Cloud Data Fusion インスタンスが 6.10.0 より前のバージョンを使用していて、RBAC が有効になっている場合、サービス アカウントは IAM ページのプリンシパルのリストに表示されません。サービス アカウント名を手動で入力する必要があります。
必要なロールを付与するには、次の手順を行います。
Google Cloud コンソールの [IAM] ページに移動します。
[アクセス権を付与] をクリックします。
[新しいプリンシパル] フィールドに、Cloud Data Fusion API サービス エージェントのサービス アカウントを入力します。
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
形式を使用します。TENANT_PROJECT_ID
をインスタンスのテナント ID に置き換えます。テナント プロジェクト ID を表示するには、[インスタンス] ページに移動し、インスタンスの詳細を表示するインスタンス名をクリックします。[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
Cloud Data Fusion で Dataplex データリネージを有効にする
Cloud Data Fusion の新しいインスタンスでは、Dataplex データリネージがデフォルトで無効になっています。2024 年 1 月 27 日より前にバージョン 6.8.0 以降を使用してインスタンスを作成した場合は、始める前にの手順を完了すると、デフォルトで有効になります。
インスタンスの作成時に Dataplex データリネージを有効にする
コンソール
インスタンスの作成時に Dataplex データリネージを有効にするには、次の手順を行います。
Cloud Data Fusion の [インスタンス] ページに移動し、[インスタンスを作成] をクリックします。
インスタンスを構成するときに、[詳細オプション] セクションを展開し、[Dataplex データリネージとの統合を有効にする] をクリックします。インスタンスの作成の詳細については、一般公開インスタンスの作成をご覧ください。
REST API
インスタンスを作成するときに Dataplex データリネージを有効にするには、オプションの dataplex_data_lineage_integration_enabled
プロパティを true
に設定します。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
無効にするには、プロパティを false に設定するか、プロパティを省略します。これは、新しいインスタンスの作成時に、リネージがデフォルトで無効になるためです。
既存のインスタンスで Dataplex データリネージを有効または無効にする
コンソール
Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを有効または無効にするには、次の手順を行います。
- インスタンスの詳細を表示します。
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
[インスタンス] をクリックし、インスタンスの名前をクリックして [インスタンスの詳細] ページに移動します。
- [Dataplex データリネージ統合] フィールドで、[編集] をクリックします。
- Dataplex データリネージを有効または無効にして、[保存] をクリックします。
REST API
Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを有効にするには、dataplex_data_lineage_integration_enabled
プロパティを true
に設定し、updateMask
パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Cloud Data Fusion の既存のインスタンスで Dataplex データリネージを無効にするには、dataplex_data_lineage_integration_enabled
プロパティを false
に設定し、updateMask
パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
データ リネージグラフを表示する
すべての Google Cloud サービスにあるエンティティのリネージグラフを表示するには、次の操作を行います。
Cloud Data Fusion のインスタンスに移動し、サポートされているプラグインを使用するデータ パイプラインを実行します。
コンソールの [Dataplex] ページでリネージグラフを表示し、リネージ情報を表示するアセットを見つけます。
制限事項
Dataplex でリネージを表示する場合は、次の制限があります。
Dataplex のリネージは、サポートされているプラグインに接続されている BigQuery エンティティがある場合にのみ検出できます。データリネージ グラフが使用可能になるタイミングについて詳しくは、データリネージについてをご覧ください。
Data Lineage API は、顧客管理の暗号鍵(CMEK)をサポートしていません。
Cloud Data Fusion は、
me-central1
またはeurope-west12
のロケーションではこの機能をサポートしていません。データリネージに関する考慮事項をご確認ください。
次のステップ
- 詳しくはデータリネージをご覧ください。