このページでは、Cloud Data Fusion でパイプラインの実行に Dataproc クラスタを再利用する方法について説明します。詳細については、クラスタを再利用するタイミングと 既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。
始める前に
- バージョン 6.5.0 以降の Cloud Data Fusion インスタンスが必要です。
クラスタの再利用を有効にする
クラスタは、新しいコンピューティング プロファイルで再利用することも、デプロイされたパイプラインで使用されたプロファイルで再利用することもできます。
新しいプロファイルでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
[システム管理者] > [構成] > [システム コンピューティング プロファイル] をクリックします。
[Create New Profile] をクリックします。
Dataproc プロビジョナーを選択します。
[Create a profile for Dataproc] ウィンドウで、クラスタの詳細を入力します。
- [Profile label] フィールドと [Profile name] フィールドに、プロファイルを識別する名前を入力します(例:
execution_compute-profile
)。 - [説明] フィールドに、プロファイルの目的を記述します(例:
Profile used for pipeline execution
)。 - [最大アイドル時間] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [クラスタの削除をスキップ] フィールドを
True
に設定します。詳細については、クラスタを再利用するタイミングをご覧ください。 - 省略可: 他のオプション フィールドを構成します。
- [作成] をクリックします。
- [Profile label] フィールドと [Profile name] フィールドに、プロファイルを識別する名前を入力します(例:
デプロイされたパイプラインでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
[リスト] をクリックします。
[デプロイ済み] タブをクリックし、パイプライン名をクリックします。デプロイされたパイプラインが、Cloud Data Fusion ウェブ インターフェースの [Studio] ページで開きます。
[構成] をクリックします。
[Compute config] ウィンドウで、選択したプロファイルに移動し、[カスタマイズ] をクリックします。
表示されたウィンドウで、次の値を入力します。
- [Max Idle Time] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [Skip cluster delete] を
True
に設定します。詳細については、クラスタを再利用するタイミングをご覧ください。
[完了] をクリックします。