アーキテクチャとコンポーネント

Cloud Data Fusion インスタンスは、Google Cloud の 1 つの Compute Engine ゾーン内で動作します。インスタンスは、Google Kubernetes Engine(GKE)、Cloud SQL、Cloud Storage、永続ディスク、Cloud Key Management Service など、いくつかの GCP テクノロジーで構成されています。

Cloud Data Fusion インスタンスはテナンシー ユニットでプロビジョニングされます。データ パイプラインのビルドとオーケストレーションを行い、メタデータを集中管理する機能を提供します。Cloud Data Fusion インスタンスは、テナント プロジェクトの GKE クラスタで動作し、Cloud Storage、Cloud SQL、Persistent Disk、Elasticsearch、Cloud KMS を使用して、ビジネス、技術、運用のメタデータを保存します。

以降のセクションでは、Cloud Data Fusion アーキテクチャの主要コンポーネントについて説明します。

テナント プロジェクト

Cloud Data Fusion パイプラインのビルドとオーケストレートやパイプライン メタデータの保存に必要な一連のサービスは、テナンシー ユニット内のテナント プロジェクトでプロビジョニングされます。Cloud Data Fusion インスタンスがプロビジョニングされているユーザー プロジェクトごとに、別々のテナント プロジェクトが作成されます。テナント プロジェクトは、ユーザー プロジェクトのネットワーク構成とファイアウォール構成をすべて継承します。

コントロール プレーン

コントロール プレーンは、Cloud Data Fusion インスタンス自体を扱う API オペレーションのセット(作成、削除、再起動、更新など)です。

データプレーン

データプレーンは、パイプラインと関連アーティファクトの作成、実行、モニタリングなど、Cloud Data Fusion の主な機能を扱う一連の REST API オペレーションを指します。たとえば、データプレーン オペレーションを使用してパイプラインを作成または停止します。詳細については、CDAP リファレンスをご覧ください。

システム サービス

Cloud Data Fusion がパイプラインのライフサイクル、オーケストレーション、メタデータを管理するために使用する一連のサービス。Cloud Data Fusion は GKE を使用してこれらのサービスをオーケストレートします。

ウェブ インターフェース

Cloud Data Fusion ウェブ インターフェースは、データ パイプラインを開発、管理、実行し、統合メタデータを検索、表示、管理するためのグラフィカル インターフェースです。ウェブ インターフェースは GKE クラスタでも動作します。

ハブ

Cloud Data Fusion ウェブ インターフェースで、プラグイン、サンプル パイプライン、その他の統合を閲覧するには、[Hub] をクリックします。新しいバージョンのプラグインがリリースされると、互換性のあるすべてのインスタンスの Hub に表示されます。これは、インスタンスがリリースされる前に作成された場合でも当てはまります。

メタデータ ストレージ

Cloud Data Fusion では、Cloud Storage、Cloud SQL、Persistent Disk、Elasticsearch を使用して、技術、ビジネス、運用のメタデータを保存します。

名前空間

名前空間を使用して Cloud Data Fusion インスタンスを分割すると、設計と実行環境でアプリケーションとデータの分離を実現できます。詳細については、名前空間をご覧ください。

ドメイン

パブリック IP を使用している場合、Cloud Data Fusion ウェブインターフェース とバックエンド サービスはドメイン datafusion.cdap.app で動作します。これらは HTTPS を使用して公開され、SSL 証明書を使用して接続を暗号化します。

パイプラインの実行

Cloud Data Fusion は Dataproc クラスタを使用してパイプラインを実行します。Cloud Data Fusion は、一時的な Dataproc クラスタを自動的にプロビジョニングし、これらのクラスタ上でパイプラインを実行します。パイプラインの実行が完了すると、クラスタを破棄します。必要に応じて、既存の Dataproc クラスタに対してパイプラインを実行することも選択できます。

Dataproc クラスタと Cloud Storage バケットは、Cloud Data Fusion インスタンスと同じリージョンに存在します。詳細については、一般的利用規約の データのロケーションCloud Data Fusion のよくある質問をご覧ください。

Google Cloud のオペレーション スイート

必要に応じて、Google Cloud のオペレーション スイートにログを送信することもできます。Google Cloud のオペレーション スイートと統合するように構成されたインスタンスの場合、2 種類のログが Google Cloud のオペレーション スイートに送信されます。

  1. 監査ログ: すべてのインスタンス管理オペレーションについて、Cloud Data Fusion は Google Cloud のオペレーション スイートに監査ログを出力します。

  2. パイプライン ログ: 以下からログが見つかります。

    • Google Cloud のオペレーション スイートの Dataproc クラスタにおける Cloud Data Fusion パイプラインのログ
    • パイプラインを実行する Cloud Data Fusion の [Pipeline Studio] ページ

Cloud Data Fusion でのログの操作についてさらに学習する。

プレビュー

Cloud Data Fusion の [Studio] ページでデータ パイプラインを作成し、パイプライン ソースからのデータの一部を表示するには、[プレビュー] をクリックします。

プレビューのパイプラインはテナント プロジェクトで実行され、パイプラインをデプロイすると、関連するコンピューティング プロファイルのユーザー プロジェクトで実行されます。パイプラインをデプロイした後、プレビュー機能を使用するには、パイプラインを複製する必要があります。

次のステップ