このページでは、Cloud Data Fusion でのパイプライン実行に Dataproc クラスタを再利用する方法について説明します。詳細については、クラスタを再利用するタイミングと既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。
始める前に
- バージョン 6.5.0 以降の Cloud Data Fusion インスタンスが必要です。
クラスタの再利用を有効にする
クラスタは、新しいコンピューティング プロファイルやデプロイされたパイプラインで使用されているパイプラインで再利用できます。
新しいプロファイルでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion ウェブ インターフェースでインスタンスを開くには、[Instances] をクリックしてから、[View instance] をクリックします。
[System admin] > [構成] > [システム コンピューティング プロファイル] の順にクリックします。
[Create New Profile] をクリックします。
[Dataproc] プロビジョナーを選択します。
[Dataproc のプロファイルの作成] ウィンドウで、クラスタの詳細を入力します。
- [プロファイル ラベル] フィールドと [プロファイル名] フィールドに、プロファイルを識別する名前(
execution_compute-profile
など)を入力します。 - [説明] フィールドに、プロファイルの目的を記述します(例:
Profile used for pipeline execution
)。 - [最大アイドル時間] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [クラスタの削除をスキップ] フィールドを
True
に設定します。詳細については、クラスタを再利用する場合をご覧ください。 - 省略可: その他のオプション フィールドを構成します。
- [作成] をクリックします。
- [プロファイル ラベル] フィールドと [プロファイル名] フィールドに、プロファイルを識別する名前(
デプロイされたパイプラインでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion ウェブ インターフェースでインスタンスを開くには、[Instances] をクリックしてから、[View instance] をクリックします。
[リスト] をクリックします。
[デプロイ済み] タブをクリックし、パイプライン名をクリックします。デプロイされたパイプラインが、Cloud Data Fusion ウェブ インターフェースの [Studio] ページで開きます。
[構成] をクリックします。
[コンピューティング構成] ウィンドウで、選択したプロファイルに移動し、[カスタマイズ] をクリックします。
表示されたウィンドウで次の値を入力します。
- [Max Idle Time] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [クラスタの削除をスキップ] を
True
に設定します。詳細については、クラスタを再利用する場合をご覧ください。
[完了] をクリックします。