このページは Cloud Translation API によって翻訳されました。

Cloud Data Fusion を使用してデータを処理する

Cloud Data Fusion には、Cloud Storage または BigQuery アセットに存在する Dataplex Universal Catalog エンティティ（テーブル）からデータを読み取るための Dataplex Universal Catalog Source プラグインが用意されています。Dataplex Universal Catalog Source プラグインによって、Cloud Storage アセット内のデータをテーブルとして扱い、SQL クエリでデータをフィルタリングできます。

始める前に

Cloud Data Fusion インスタンスを作成します（ない場合）。このプラグインは、Cloud Data Fusion バージョン 6.6 以降で動作するインスタンスで使用できます。
ソースデータは、すでに Dataplex Universal Catalog ゾーンとアセット（Cloud Storage バケットと BigQuery データセットのいずれか）の一部である必要があります。
Cloud Storage のテーブルを使用するには、レイクの metastore を構成する必要があります。
Cloud Storage エンティティから読み込まれるデータの場合は、Dataproc Metastore をレイクに接続する必要があります。
Cloud Storage エンティティでの CSV データはサポートされていません。
Dataplex Universal Catalog プロジェクトでは、通常 default に設定されているサブネットワークでプライベート Google アクセスを有効にするか、internal_ip_only を false に設定します。

制限事項

Cloud Storage アセットの場合: このプラグインは CSV ファイルからの読み取りをサポートしていません。JSON、Avro、Parquet、ORC の形式からの読み取りをサポートします。
Cloud Storage アセットの場合: [パーティション開始日] と [パーティション終了日] は適用されません。

必要なロール

ロールの管理に必要な権限を取得するには、Dataproc サービスエージェントと Cloud Data Fusion サービスエージェント（service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com）に対する次の IAM ロールを付与するよう管理者に依頼してください。

Dataplex 開発者（roles/dataplex.developer）
Dataplex データリーダー（roles/dataplex.dataReader）
Dataproc Metastore メタデータユーザー（roles/metastore.metadataUser）
Cloud Dataplex サービスエージェント（roles/dataplex.serviceAgent）
Dataplex メタデータリーダー（roles/dataplex.metadataReader）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

パイプラインにプラグインを追加する

Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動します。

[インスタンス] に移動

このページでは、インスタンスを管理できます。
[インスタンスを表示] をクリックして、Cloud Data Fusion UI でインスタンスを開きます。
[Studio] ページに移動し、[ソース] メニューを展開して、[Dataplex] をクリックします。

プラグインを構成する

このプラグインを [Studio] ページでパイプラインに追加した後、Dataplex Universal Catalog ソースをクリックしてプロパティを構成します。

構成の詳細については、Dataplex ソースリファレンスをご覧ください。

省略可: サンプルパイプラインを使ってみる

利用できるサンプルパイプラインには、SAP ソースから Dataplex Universal Catalog シンクへのパイプライン、Dataplex Universal Catalog ソースから BigQuery シンクへのパイプラインなどがあります。

サンプルパイプラインを使用するには、Cloud Data Fusion UI でインスタンスを開き、[Hub] > [Pipelines] をクリックして、Dataplex Universal Catalog パイプラインのいずれかを選択します。パイプラインの作成するためのダイアログが開きます。

次のステップ

Dataplex Universal Catalog Sink プラグインを使用して、Cloud Data Fusion でデータを取り込む。