Cloud Data Fusion でデータを処理する

Cloud Data Fusion は、Cloud Storage または BigQuery のアセットにある Dataplex エンティティ(テーブル)からデータを読み取る Dataplex Source プラグインを提供します。Dataplex Source プラグインによって、Cloud Storage アセット内のデータをテーブルとして扱い、単純な SQL クエリでデータをフィルタリングできます。

始める前に

  • Cloud Data Fusion インスタンスを作成します(ない場合)。このプラグインは、Cloud Data Fusion バージョン 6.6 以降で実行されるインスタンスで使用できます。

  • ソースデータは、すでに Dataplex ゾーンアセット(Cloud Storage バケットと BigQuery データセットのいずれか)の一部である必要があります。

  • Cloud Storage のテーブルを使用するには、レイクのメタストアを構成する必要があります。

  • Cloud Storage エンティティから読み込まれるデータの場合は、Dataproc Metastore をレイクに接続する必要があります。

  • Cloud Storage エンティティでの CSV データはサポートされていません。

  • Dataplex プロジェクトでは、通常 default に設定されているサブネットワークで限定公開の Google アクセスを有効にするか、internal_ip_onlyfalse に設定します。

必要なロール

ロールの管理に必要な権限を取得するには、Dataproc サービス アカウントと Google マネージド サービス アカウント(service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com)で次の IAM ロールを付与するように管理者に依頼してください。

ロールの付与の詳細については、アクセスの管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

制限事項

  • Cloud Storage アセットの場合: このプラグインは CSV ファイルからの読み取りをサポートしていません。JSON、Avro、Parquet、ORC の形式からの読み取りをサポートします。

  • Cloud Storage アセットの場合、[パーティション開始日] と [パーティション終了日] は適用されません。

パイプラインにプラグインを追加する

  1. Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動します。

    [インスタンス] に移動

    このページでは、インスタンスを管理できます。

  2. [インスタンスを表示] をクリックして、Cloud Data Fusion UI でインスタンスを開きます。

  3. [Studio] ページに移動し、[ソース] メニューを展開して、[Dataplex] をクリックします。

プラグインを構成する

このプラグインを [Studio] ページでパイプラインに追加したら、Dataplex ソースをクリックしてプロパティを構成します。

構成の詳細については、Dataplex ソースのリファレンスをご覧ください。

省略可: サンプル パイプラインを使ってみる

利用できるサンプル パイプラインには、SAP ソースから Dataplex シンクへのパイプライン、Dataplex ソースから BigQuery シンクへのパイプラインなどがあります。

サンプル パイプラインを使用するには、Cloud Data Fusion UI でインスタンスを開き、[Hub] > [Pipelines] をクリックして、Dataplex パイプラインのいずれかを選択します。パイプラインの作成するためのダイアログが開きます。

次のステップ