Cloud Data Fusion の概要

Cloud Data Fusion はデータ パイプラインを素早く構築、管理できる、クラウドネイティブのフルマネージド エンタープライズ データ統合サービスです。Cloud Data Fusion ウェブ インターフェースを使用すると、スケーラブルなデータ統合ソリューションを構築できます。これにより、インフラストラクチャを管理することなく、さまざまなデータソースに接続してデータを変換し、さまざまな宛先システムに転送できます。

Cloud Data Fusion は、オープンソース プロジェクト CDAP の機能を利用しています。

Cloud Data Fusion を使ってみる

Cloud Data Fusion は数分で始めることができます。

Cloud Data Fusion について確認する

以下のセクションで、Cloud Data Fusion の主要コンポーネントについて説明します。

テナント プロジェクト

Cloud Data Fusion パイプラインのビルドとオーケストレートやパイプライン メタデータの保存に必要な一連のサービスは、テナンシー ユニット内のテナント プロジェクトでプロビジョニングされます。Cloud Data Fusion インスタンスがプロビジョニングされているユーザー プロジェクトごとに、別々のテナント プロジェクトが作成されます。テナント プロジェクトは、すべてのネットワーク構成とファイアウォール構成をユーザー プロジェクトから継承します。

Cloud Data Fusion: コンソール

Cloud Data Fusion コンソール(コントロール プレーンとも呼ばれる)は、API オペレーションと、インスタンスの作成、削除、再起動、更新など Cloud Data Fusion インスタンス自体を操作するウェブ インターフェースのセットです。

Cloud Data Fusion: Studio

Cloud Data Fusion Studio(データプレーンとも呼ばれる)は、REST API と、パイプラインと関連アーティファクトの作成、実行、管理を行う ウェブ インターフェース オペレーションのセットです。

コンセプト

このセクションでは、Cloud Data Fusion の基本コンセプトのいくつかを紹介します。

コンセプト 説明
Cloud Data Fusion インスタンス
  • Cloud Data Fusion インスタンスとは、Cloud Data Fusion 固有のデプロイメントのことです。Cloud Data Fusion の使用を開始するには、Google Cloud コンソールを使用して Cloud Data Fusion インスタンスを作成します。
  • 1 つの Google Cloud コンソール プロジェクト内に複数のインスタンスを作成できます。また、Cloud Data Fusion インスタンスを作成する Google Cloud リージョンを指定できます。
  • 要件と費用の制約に応じて、Developer、Basic、Enterprise インスタンスを作成できます。
  • Cloud Data Fusion インスタンスごとに、固有の独立した Cloud Data Fusion デプロイメントが 1 つ含まれます。このデプロイメントに、パイプラインのライフサイクル管理、オーケストレーション、調整とメタデータの管理を行う一連のサービスが含まれています。これらのサービスは、テナント プロジェクトの長時間実行リソースを使用して実行されます。
名前空間 名前空間とは、Cloud Data Fusion インスタンス内のアプリケーション、データ、関連するメタデータの論理グループです。名前空間はインスタンスのパーティショニングと考えることができます。単一のインスタンスでは、ある名前空間が別の名前空間から独立してエンティティのデータとメタデータを格納します。
パイプライン
  • パイプラインは、視覚的にデータを設計しフローを制御する手段です。パイプラインを使用して、オンプレミスやクラウドのさまざまなデータソースからデータを抽出、変換、ブレンド、集約、読み込みを行います。
  • パイプラインを構築すると、データの取り込み、統合、移行の問題を解決するのに役立つ、複雑なデータ処理ワークフローを作成できます。必要に応じて、Cloud Data Fusion を使用してバッチ パイプラインとリアルタイム パイプラインのどちらでも構築できます。
  • パイプラインを使用すると、データの論理フローを使用してデータ処理ワークフローを表現でき、一方、実行環境で物理的に実行するために必要となるすべての機能は Cloud Data Fusion で対処できます。
パイプライン ノード
  • Cloud Data Fusion ウェブ インターフェースの [Studio] ページでは、パイプラインが有向非巡回グラフ(DAG)に配置された一連のノードとして表され、一方向のフローを形成します。
  • ノードは、ソースからの読み取り、データ変換の実行、シンクへの出力の書き込みなど、パイプラインで実行できるさまざまなアクションを表します。ソース、変換、シンクなどのノードを接続することで、Cloud Data Fusion ウェブ インターフェースでデータ パイプラインを開発することができます。
プラグイン
  • プラグインとは、Cloud Data Fusion の機能を拡張するために使用できる、カスタマイズ可能なモジュールのことです。
  • Cloud Data Fusion には、ソース、変換、集計、シンク、エラーコレクタ、アラート パブリッシャー、アクション、実行後アクション用のプラグインが用意されています。
  • プラグインはノードと呼ばれることもあります。Cloud Data Fusion ウェブ インターフェースのコンテキストでは一般的にノードと呼ばれます。
  • 人気のある Cloud Data Fusion プラグインを探してアクセスするには、Cloud Data Fusion のプラグインをご覧ください。
ハブ Cloud Data Fusion ウェブ インターフェースで、プラグイン、サンプル パイプライン、その他の統合を閲覧するには、[Hub] をクリックします。新しいバージョンのプラグインがリリースされると、互換性のある任意のインスタンスのハブに表示されます。これは、プラグインがリリースされる前にインスタンスが作成された場合にも適用されます。
パイプライン プレビュー
  • Cloud Data Fusion Studio では、データのサブセットに対してプレビューを使用して、パイプライン設計の精度をテストできます。
  • プレビューのパイプラインはテナント プロジェクトで実行されます。
パイプラインの実行
  • Cloud Data Fusion では、パイプラインを実行する一時的な実行環境が作成されます。
  • Cloud Data Fusion は、実行環境として Dataproc をサポートしています。
  • Cloud Data Fusion は、パイプラインの実行開始時にお客様のプロジェクトにエフェメラル Dataproc クラスタをプロビジョニングし、そのクラスタで Spark を使用してパイプラインを実行します。パイプラインの実行が完了すると、クラスタを削除します。
  • または、Terraform などのテクノロジーを使用して、制御された環境で Dataproc クラスタを管理する場合、クラスタをプロビジョニングしないように Cloud Data Fusion を構成することもできます。これらの環境では、既存の Dataproc クラスタに対してパイプラインを実行できます。
コンピューティング プロファイル
  • コンピューティング プロファイルは、パイプラインを実行する方法と場所を指定します。プロファイルとは、パイプラインの物理的な実行環境の設定と削除に必要な情報をカプセル化したものです。
  • たとえば、コンピューティング プロファイルには次のものが含まれます。
    • 実行プロビジョナー
    • リソース(メモリと CPU)
    • 最小ノード数と最大ノード数
    • その他の値
  • プロファイルは名前で識別されます。プロファイルにはプロビジョナーと関連する構成を割り当てる必要があります。プロファイルは、Cloud Data Fusion インスタンス レベルまたは名前空間レベルのどちらかに存在しています。
  • Cloud Data Fusion のデフォルトのコンピューティング プロファイルは自動スケーリングです。
再利用可能なパイプライン
  • Cloud Data Fusion で再利用可能なデータ パイプラインを使用すると、さまざまなユースケースやデータセットにデータ統合パターンを適用できる単一のパイプラインを作成できます。
  • 再利用可能なパイプラインでは、設計時にハードコードするのではなく、実行時にパイプラインの構成の大部分を設定することで、管理性が向上します。
トリガー
  • Cloud Data Fusion では、データ パイプライン(ダウンストリーム パイプライン)でトリガーを作成して、1 つ以上の異なるパイプラインの完了時に(アップストリーム パイプライン)実行されるように設定できます。ダウンストリーム パイプラインを実行するタイミングを、アップストリーム パイプラインの実行の成功、失敗、停止時、またはこれらの組み合わせなどに基づき選択します。
  • トリガーは次のような場合に有用です。
    • データをクレンジングし、それから複数のダウンストリーム パイプラインで利用できるようにする。
    • ランタイム引数やプラグイン構成などの情報をパイプライン間で共有する。これをペイロード構成といいます。
    • 実行ごとに更新する必要のある静的パイプラインを使用する代わりに、時間、日、週、月のデータを使用して実行できる一連の動的パイプラインを備えている。

Cloud Data Fusion のリソース

Cloud Data Fusion のリソースについて確認します。

次のステップ