クラスタの設定

このページでは、Cloud Data Fusion で静的 Dataproc クラスタを使用するケースについて説明します。また、互換性のあるバージョンと推奨されるクラスタ構成についても説明します。

詳細については、クラスタの管理をご覧ください。

静的クラスタを使用するケース

デフォルトでは、Cloud Data Fusion はパイプラインごとにエフェメラル クラスタを作成します。パイプライン実行の開始時点でクラスタを作成し、パイプラインの実行が完了した後に削除します。

以下のシナリオでは、デフォルトを使用しないでください。代わりに、静的クラスタを使用します。

  • すべてのパイプライン用の新しいクラスタの作成に要する時間が、ユースケースに適していない場合。

  • 組織でクラスタの作成を一元管理する必要がある場合。たとえば、すべての Dataproc クラスタに特定のポリシーを適用する必要がある場合です。

詳細については、既存の Dataproc クラスタに対してパイプラインを実行するをご覧ください。

バージョンの互換性

問題: Cloud Data Fusion 環境のバージョンが Dataproc クラスタのバージョンに対応していない可能性があります。

次の Cloud Data Fusion のバージョンは、対応する Dataproc のバージョンをサポートしています。

Cloud Data Fusion のバージョン Dataproc のバージョン
6.1~6.3* 1.3.x
6.4 以降 1.3.x と 2.0.x

* Cloud Data Fusion のバージョン 6.1~6.3 には、Dataproc バージョン 1.3 との互換性があります。互換性を維持するには、追加のコンポーネントは必要ありません。Cloud Data Fusion は基本の Cloud Data Fusion バージョンに付属する HDFS と Spark を使用します。

おすすめの方法

推奨: パイプラインの静的クラスタを作成する場合は、次の構成を使用します。

パラメータ
yarn.nodemanager.delete.debug-delay-sec YARN のログを保持します。
推奨値: 86400(1 日に相当します)
yarn.nodemanager.pmem-check-enabled YARN が物理メモリの上限を確認して、コンテナが物理メモリを超過した場合にコンテナを強制終了できるようにします。
推奨値: false
yarn.nodemanager.vmem-check-enabled YARN が仮想メモリの上限を確認し、コンテナが物理メモリを超過した場合にコンテナを強制終了できるようにします。
推奨値: false

次のステップ