Cloud Data Fusion は、Cloud Storage または BigQuery のアセットにある Dataplex エンティティ(テーブル)からデータを読み取る Dataplex Source プラグインを提供します。Dataplex Source プラグインによって、Cloud Storage アセット内のデータをテーブルとして扱い、単純な SQL クエリでデータをフィルタリングできます。
始める前に
Cloud Data Fusion インスタンスを作成します(ない場合)。このプラグインは、Cloud Data Fusion バージョン 6.6 以降で実行されるインスタンスで使用できます。
ソースデータは、すでに Dataplex ゾーンとアセット(Cloud Storage バケットと BigQuery データセットのいずれか)の一部である必要があります。
Cloud Storage のテーブルを使用するには、レイクのメタストアを構成する必要があります。
Cloud Storage エンティティから読み込まれるデータの場合は、Dataproc Metastore をレイクに接続する必要があります。
Cloud Storage エンティティでの CSV データはサポートされていません。
Dataplex プロジェクトでは、通常
default
に設定されているサブネットワークで限定公開の Google アクセスを有効にするか、internal_ip_only
をfalse
に設定します。
必要なロール
ロールの管理に必要な権限を取得するには、Dataproc サービス エージェントと Cloud Data Fusion サービス エージェント(service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com)に次の IAM ロールを付与するように管理者に依頼してください。
- Dataplex 開発者(
roles/dataplex.developer
) - Dataplex データリーダー(
roles/dataplex.dataReader
) - Dataproc Metastore メタデータ ユーザー(
roles/metastore.metadataUser
) - Cloud Dataplex サービス エージェント(
roles/dataplex.serviceAgent
) - Dataplex メタデータ リーダー(
roles/dataplex.metadataReader
)
ロールの付与の詳細については、アクセスの管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
制限事項
Cloud Storage アセットの場合: このプラグインは CSV ファイルからの読み取りをサポートしていません。JSON、Avro、Parquet、ORC の形式からの読み取りをサポートします。
Cloud Storage アセットの場合、[パーティション開始日] と [パーティション終了日] は適用されません。
パイプラインにプラグインを追加する
Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動します。
このページでは、インスタンスを管理できます。
[インスタンスを表示] をクリックして、Cloud Data Fusion UI でインスタンスを開きます。
[Studio] ページに移動し、[ソース] メニューを展開して、[Dataplex] をクリックします。
プラグインを構成する
このプラグインを [Studio] ページでパイプラインに追加したら、Dataplex ソースをクリックしてプロパティを構成します。
構成の詳細については、Dataplex ソースのリファレンスをご覧ください。
省略可: サンプル パイプラインを使ってみる
利用できるサンプル パイプラインには、SAP ソースから Dataplex シンクへのパイプライン、Dataplex ソースから BigQuery シンクへのパイプラインなどがあります。
サンプル パイプラインを使用するには、Cloud Data Fusion UI でインスタンスを開き、[Hub] > [Pipelines] をクリックして、Dataplex パイプラインのいずれかを選択します。パイプラインの作成するためのダイアログが開きます。
次のステップ
- Dataplex Sink プラグインを使用して、Cloud Data Fusion でデータを取り込みます。