既存の Dataproc クラスタに対してパイプラインを実行する

このページでは、既存の Dataproc クラスタに対して Cloud Data Fusion でパイプラインを実行する方法について説明します。

デフォルトでは、Cloud Data Fusion はパイプラインごとにエフェメラル クラスタを作成します。パイプライン実行の開始時点でクラスタを作成し、パイプラインの実行が完了した後に削除します。この動作では、必要な場合にのみリソースが作成されるようにすることでコストを抑えられますが、次の状況では、このデフォルトの動作が望ましくない場合があります。

  • すべてのパイプライン用の新しいクラスタの作成にかかる時間が、ユースケースに適していない場合。

  • 組織でクラスタを集中管理する必要がある場合。たとえば、すべての Dataproc クラスタに特定のポリシーを適用したい場合などです。

このような場合は、次の手順で既存のクラスタに対してパイプラインを実行します。

始める前に

必要なもの:

既存のクラスタに接続する

Cloud Data Fusion バージョン 6.2.1 以降では、新しい Compute Engine プロファイルを作成するときに既存の Dataproc クラスタに接続できます。

  1. インスタンスに移動します:

    1. Google Cloud コンソールで、Cloud Data Fusion のページに移動します。

    2. Cloud Data Fusion ウェブ インターフェースでインスタンスを開くには、[Instances] をクリックしてから、[View instance] をクリックします。

      [インスタンス] に移動

  2. [System Admin] をクリックします。

  3. [構成] タブをクリックします。

  4. [システム コンピューティング プロファイル] をクリックします。

  5. [Create New Profile] をクリックします。 プロビジョナーのページが開きます。

  6. [既存の Dataproc] をクリックします。

  7. プロファイル、クラスタ、モニタリングの情報を入力します。

  8. [作成] をクリックします。

カスタム プロファイルを使用するようにパイプラインを構成する

  1. インスタンスに移動します:

    1. Google Cloud コンソールで、Cloud Data Fusion のページに移動します。

    2. Cloud Data Fusion ウェブ インターフェースでインスタンスを開くには、[Instances] をクリックしてから、[View instance] をクリックします。

      [インスタンス] に移動

  2. [Studio] ページでパイプラインに移動します。

  3. [構成] をクリックします。

  4. [Compute config] をクリックします。

  5. 作成したプロファイルをクリックします。

    カスタム プロファイルを使用します。
    図 1: カスタム プロファイルをクリックします。
  6. パイプラインを実行します。既存の Dataproc クラスタに対して実行されます。

次のステップ