このページは Cloud Translation API によって翻訳されました。

既存の Dataproc クラスタに対してパイプラインを実行する

このページでは、既存の Dataproc クラスタに対して Cloud Data Fusion でパイプラインを実行する方法について説明します。

デフォルトでは、Cloud Data Fusion はパイプラインごとにエフェメラルクラスタを作成します。パイプライン実行の開始時点でクラスタを作成し、パイプラインの実行が完了した後に削除します。この動作では、必要な場合にのみリソースが作成されるようにすることでコストを抑えられますが、次の状況では、このデフォルトの動作が望ましくない場合があります。

すべてのパイプライン用の新しいクラスタの作成にかかる時間が、ユースケースに適していない場合。
組織でクラスタを集中管理する必要がある場合。たとえば、すべての Dataproc クラスタに特定のポリシーを適用したい場合などです。

このような場合は、次の手順で既存のクラスタに対してパイプラインを実行します。

始める前に

必要なもの:

Cloud Data Fusion インスタンス。

Cloud Data Fusion インスタンスを作成する
既存の Dataproc クラスタ。

Dataproc クラスタを作成する
Cloud Data Fusion バージョン 6.2 でパイプラインを実行する場合は、Hadoop 2.x で実行される古い Dataproc イメージ（1.5-debian10 など）を使用するか、Cloud Data Fusion の最新バージョンにアップグレードします。

既存のクラスタに接続する

Cloud Data Fusion バージョン 6.2.1 以降では、新しい Compute Engine プロファイルを作成するときに既存の Dataproc クラスタに接続できます。

インスタンスに移動します:
1. Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
2. Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
  
  [インスタンス] に移動
[System Admin] をクリックします。
[構成] タブをクリックします。
[システムコンピューティングプロファイル] をクリックします。
[Create New Profile] をクリックします。プロビジョナーのページが開きます。
[既存の Dataproc] をクリックします。
プロファイル、クラスタ、モニタリングの情報を入力します。
[作成] をクリックします。

カスタムプロファイルを使用するようにパイプラインを構成する

インスタンスに移動します:
1. Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
2. Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
  
  [インスタンス] に移動
[Studio] ページでパイプラインに移動します。
[構成] をクリックします。
[Compute config] をクリックします。
作成したプロファイルをクリックします。

図 1: カスタムプロファイルをクリックする
パイプラインを実行します。既存の Dataproc クラスタに対して実行されます。

次のステップ

クラスタの構成について詳細を確認する。
クラスタの削除のトラブルシューティングを行う。

既存の Dataproc クラスタに対してパイプラインを実行する

始める前に

既存のクラスタに接続する

カスタム プロファイルを使用するようにパイプラインを構成する

次のステップ

カスタムプロファイルを使用するようにパイプラインを構成する