Cloud Data Fusion には、Dataplex でサポートされているアセットのいずれかにデータを取り込むための Dataplex Sink プラグインが用意されています。
始める前に
- Cloud Data Fusion インスタンスがない場合は、作成します。このプラグインは、Cloud Data Fusion バージョン 6.6 以降で動作するインスタンスで使用できます。詳細については、Cloud Data Fusion のパブリック インスタンスを作成するをご覧ください。
- データが取り込まれる BigQuery データセットや Cloud Storage バケットは、Dataplex レイクの一部である必要があります。
- Cloud Storage エンティティから読み込まれるデータの場合は、Dataproc Metastore をレイクに接続する必要があります。
- Cloud Storage エンティティでの CSV データはサポートされていません。
- Dataplex プロジェクトでは、通常
default
に設定されているサブネットワークで限定公開の Google アクセスを有効にするか、internal_ip_only
をfalse
に設定します。
必要なロール
ロールの管理に必要な権限を取得するには、Dataproc サービス エージェントと Cloud Data Fusion サービス エージェント(service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
)に対する次の IAM ロールを付与するよう管理者に依頼してください。
-
Dataplex 開発者(
roles/dataplex.developer
) -
Dataplex データリーダー(
roles/dataplex.dataReader
) -
Dataproc Metastore メタデータ ユーザー(
roles/metastore.metadataUser
) -
Cloud Dataplex サービス エージェント(
roles/dataplex.serviceAgent
) -
Dataplex メタデータ リーダー(
roles/dataplex.metadataReader
)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
パイプラインにプラグインを追加する
Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動します。
このページでは、インスタンスを管理できます。
インスタンスを開くには、[インスタンスを表示] をクリックします。
[スタジオ] ページに移動し、[シンク] メニューを開いて、[Dataplex] をクリックします。
プラグインを構成する
このプラグインを [Studio] ページでパイプラインに追加した後、Dataplex シンクをクリックし、そのプロパティを構成して保存します。
構成の詳細については、Dataplex Sink リファレンスをご覧ください。
省略可: サンプル パイプラインを使ってみる
利用できるサンプル パイプラインには、SAP ソースから Dataplex シンクへのパイプライン、Dataplex ソースから BigQuery シンクへのパイプラインなどがあります。
サンプル パイプラインを使用するには、Cloud Data Fusion UI でインスタンスを開き、[Hub] > [Pipelines] をクリックして、Dataplex パイプラインのいずれかを選択します。パイプラインの作成するためのダイアログが開きます。
パイプラインを実行する
パイプラインをデプロイしたら、Cloud Data Fusion の [Studio] ページでパイプラインを開きます。
[構成] > [リソー] をクリックします。
(省略可)全体的なデータサイズとパイプラインで使用される変換の数に基づいて、[エグゼキュータの CPU] と [メモリ] を変更します。
[保存] をクリックします。
データ パイプラインを開始するには、[実行] をクリックします。
次のステップ
- Dataplex Source プラグインを使用して、Cloud Data Fusion でデータを処理する。