Cloud Data Fusion ネットワーキングの概要

このページでは、開発環境および実行環境における、パブリックまたはプライベート Cloud Data Fusion インスタンスからのデータソースへの接続に関する背景情報を提供します。

始める前に

Cloud Data Fusion のネットワーキングでは、次の基本的な知識が必要です。

テナントプロジェクト

Cloud Data Fusion では、ユーザープロジェクトにある Dataproc クラスタでパイプラインを実行する際など、ユーザーに代わってパイプラインを管理するために必要なリソースとサービスを保持するテナントプロジェクトが作成されます。

テナントプロジェクトはユーザーに直接公開されませんが、プライベートインスタンスを作成する場合は、プロジェクト名を使用して VPC ピアリングを設定します。テナントプロジェクトの各プライベートインスタンスには、独自の VPC ネットワークとサブネットがあります。

プロジェクトには複数の Cloud Data Fusion インスタンスを配置できます。Cloud Data Fusion UI または Google Cloud CLI でインスタンスにアクセスするときに保持するリソースとサービスを管理します。
詳細については、テナントプロジェクトに関する Service Infrastructure のドキュメントをご覧ください。

お客様のプロジェクト

お客様がこのプロジェクトを作成して所有します。デフォルトでは、Cloud Data Fusion はエフェメラル Dataproc クラスタをこのプロジェクト内に作成し、パイプラインを実行します。

Cloud Data Fusion インスタンス

Cloud Data Fusion インスタンスは、パイプラインを設計して実行する Cloud Data Fusion の一意のデプロイメントです。1 つのプロジェクトに複数のインスタンスを作成でき、この Cloud Data Fusion インスタンスを作成する Google Cloud リージョンを指定できます。要件と費用の制約に応じて、Cloud Data Fusion の Developer、Basic、Enterprise エディションを使用するインスタンスを作成できます。インスタンスごとに、固有の独立した Cloud Data Fusion デプロイメントが 1 つ含まれます。このデプロイメントに、パイプラインのライフサイクル管理、オーケストレーション、調整とメタデータの管理を行う一連のサービスが含まれています。これらのサービスは、テナントプロジェクトの長時間実行リソースを使用して実行されます。

ネットワーク図

次の図は、オンプレミスやクラウドのさまざまなデータソースからデータを抽出し、変換、統合、集計してからデータを読み込むデータパイプラインを構築する際の接続を示しています。

プライベートインスタンスでの外向きの制御とパブリックソースへの接続の図をご覧ください。

パイプラインの設計と実行

Cloud Data Fusion には、設計と実行環境が分離されています。そのため、1 つのパイプラインを設計してから、それを複数の環境で実行できます。開発環境はテナントプロジェクトに保存され、実行環境は 1 つ以上の顧客プロジェクトに保存されます。

例: Wrangler や Preview などの Cloud Data Fusion サービスを使用してパイプラインを設計します。これらのサービスはテナントプロジェクトで実行され、データへのアクセスは Google が管理する Cloud Data Fusion サービスエージェントロールによって制御されます。次に、お客様のプロジェクトでパイプラインを実行し、Dataproc クラスタを使用します。お客様のプロジェクトでは、デフォルトの Compute Engine サービスアカウントがデータへのアクセスを制御します。プロジェクトは、カスタムサービスアカウントを使用するように構成できます。

サービスアカウントの構成の詳細については、Cloud Data Fusion のサービスアカウントをご覧ください。

開発環境

顧客プロジェクトで Cloud Data Fusion インスタンスを作成すると、Cloud Data Fusion はパイプライン、メタデータ、Cloud Data Fusion UI、Preview や Wrangler などの設計時ツールのライフサイクルの管理に必要なサービスを実行する個別の Google マネージドテナントプロジェクトを自動的に作成します。

Cloud Data Fusion での DNS の解決

Google Cloudに転送するデータを操作してプレビューするときに、設計時環境でドメイン名を解決するには、DNS ピアリングを使用します（Cloud Data Fusion 6.7.0 以降で利用可能）。ソースとシンクにドメインまたはホスト名を使用できるため、IP アドレスほど頻繁に再構成する必要はありません。

DNS 解決は、非公開の VPC ネットワーク内でオンプレミスまたは別のサーバー（データベースや FTP サーバーなど）のドメイン名を使用する接続とプレビューパイプラインをテストする際に、Cloud Data Fusion の設計時環境で行うことをおすすめします。

詳細については、DNS ピアリングと Cloud DNS 転送をご覧ください。

実行環境

インスタンスでパイプラインを確認してデプロイした後、パイプラインを手動で実行するか、時間スケジュールまたはパイプライン状態トリガーで実行します。

Cloud Data Fusion、もしくは顧客によってプロビジョニングおよび管理されている実行環境は、どちらも顧客プロジェクト内に存在します。

パブリックインスタンス（デフォルト）

Cloud Data Fusion インスタンスをプロビジョニングする最も簡単な方法は、パブリックインスタンスを作成することです。これは出発点として適しており、公共インターネット上の外部エンドポイントへのアクセスを提供します。

Cloud Data Fusion のパブリックインスタンスは、ご自身のプロジェクトのデフォルトの VPC ネットワークを使用します。

デフォルトの VPC ネットワークには次のものがあります。

各リージョンに対する自動生成サブネット
ルーティングテーブル
コンピューティングリソース間の通信を確保するファイアウォールルール

リージョン間でのネットワーキング

新しいプロジェクトを作成する際の、デフォルトの VPC ネットワークのメリットは、事前定義された IP アドレス範囲（CIDR ブロックとして表現される）を使用して、リージョンごとに 1 つのサブネットが自動的に入力される点です。IP アドレス範囲は、 Google Cloud グローバルリージョン全体で 10.128.0.0/20、10.132.0.0/20 で始まります。

リージョンを越えてコンピューティングリソースが相互に接続されるように、デフォルトの VPC ネットワークがデフォルトのローカルルートを各サブネットに設定します。インターネットへのデフォルトルート（0.0.0.0/0）を設定すると、インターネットにアクセスして、ルーティングされていないネットワークトラフィックをキャプチャできます。

ファイアウォールルール

デフォルトの VPC ネットワークには、次のような一連のファイアウォールルールがあります。

デフォルト	説明
デフォルトで `icmp` を許可	ソース `0.0.0.0/0` の `icmp` プロトコルを有効にする
デフォルトで内部を許可	ソース `10.128.0.0/9` の `tcp:0-65535`、`udp:0-65535`、`icmp` を有効にして、最小 `10.128.0.1` から最大 `10.255.255.254` 個の IP アドレスまでカバーする。
デフォルトで `rdp` を許可	ソース `0.0.0.0/0` の `tcp:3389` を有効にする
デフォルトで `ssh` を許可	ソース `0.0.0.0/0` の `tcp:22` を有効にする

これらのデフォルトの VPC ネットワーク設定により、Cloud Data Fusion などのクラウドサービスを設定する前提条件が最小限に抑えられます。ネットワークセキュリティの問題により、組織ではデフォルトの VPC ネットワークをビジネスオペレーションに使用させないことがよくあります。デフォルトの VPC ネットワークがなければ、Cloud Data Fusion パブリックインスタンスは作成できません。代わりに、プライベートインスタンスを作成します。

デフォルトの VPC ネットワークでは、リソースへのオープンアクセスは許可されません。代わりに、Identity and Access Management（IAM）がアクセスをコントロールします。

Google Cloudにログインするには、確認済みの ID が必要です。
ログインした後、 Google Cloud サービスを表示するための明示的な権限（閲覧者のロールなど）が必要です。

プライベートインスタンス

一部の組織では、すべての本番環境システムをパブリック IP アドレスから分離することが義務付けられています。Cloud Data Fusion のプライベートインスタンスは、すべての種類の VPC ネットワーク設定で要件を満たしています。

Cloud Data Fusion の Private Service Connect

Cloud Data Fusion インスタンスは、オンプレミス、 Google Cloud、または他のクラウドプロバイダ上にあるリソースに接続する必要がある場合があります。内部 IP アドレスで Cloud Data Fusion を使用する場合、外部リソースへの接続はGoogle Cloud プロジェクトの VPC ネットワークを介して確立されます。ネットワークを介したトラフィックは公共のインターネットを経由しません。VPC ピアリングを使用して Cloud Data Fusion に VPC ネットワークへのアクセスを提供する場合は、大規模なネットワークを使用すると明らかになる制限があります。

Private Service Connect インターフェースを使用すると、Cloud Data Fusion は VPC ネットワークピアリングを使用せずに VPC に接続します。 Private Service Connect インターフェースは Private Service Connect の一種であり、Cloud Data Fusion がコンシューマ VPC ネットワークへのプライベートで安全な接続を開始できるようにします。これにより、VPC ネットワークピアリングのように柔軟性が得られ、アクセスが容易になるだけでなく、Private Service Connect が提供する明示的な承認とコンシューマ側の制御も可能となります。詳細については、Private Service Connect を使用してプライベートインスタンスを作成するをご覧ください。

開発環境および実行環境でのデータへのアクセス

パブリックインスタンスでは、オープンなインターネット上でネットワーク通信を行いますが、重要な環境では推奨されません。データソースに安全にアクセスするには、常に実行環境のプライベートインスタンスからパイプラインを実行します。

ソースへのアクセス

次の手順で、パブリックおよびプライベートインスタンスのデータソースにアクセスします。

プライベート Google アクセスを使用して Google Cloud API に発信する
VPC ピアリングを介して実行環境（Dataproc）と通信する

次の表は、さまざまなデータソースの開発時と実行時のパブリックインスタンスとプライベートインスタンスを比較したものです。

データソース	パブリック Cloud Data Fusion インスタンス（開発時）	パブリック Cloud Data Fusion Dataproc （実行時）	プライベート Cloud Data Fusion インスタンス（開発時）	プライベート Cloud Data Fusion Dataproc （実行時）
Google Cloud ソース（権限を付与し、ファイアウォールルールを設定した後）
オンプレミスソース（VPN/Interconnect を設定し、権限を付与し、ファイアウォールルールを設定した後）
パブリックインターネットソース（権限を付与し、ファイアウォールルールを設定した後）

データソース	パブリック Cloud Data Fusion インスタンス（開発時）	パブリック Cloud Data Fusion Dataproc （実行時）	プライベート Cloud Data Fusion インスタンス（開発時）	プライベート Cloud Data Fusion Dataproc （実行時）
Google Cloud ソース（権限を付与し、ファイアウォールルールを設定した後）
オンプレミスソース（VPN/Interconnect を設定し、権限を付与し、ファイアウォールルールを設定した後）
パブリックインターネットソース（権限を付与し、ファイアウォールルールを設定した後）