パイプライン パフォーマンス

このページでは、調整可能なパイプライン設定と、それらがパフォーマンスに与える影響について説明します。

パイプラインのパフォーマンスは、次の要素によって異なります。

  • データのサイズと特性
  • パイプラインの構造
  • クラスタのサイジング
  • Cloud Data Fusion パイプラインが使用するプラグイン

クラスタのサイジング

マスターノードは、クラスタで実行されているパイプラインや追加のアプリケーションの数に比例してリソースを使用します。パイプラインをエフェメラル クラスタで実行する場合は、マスターノードに 2 つの CPU と 8 GB のメモリを使用します。永続クラスタを使用している場合、ワークフローに対応するためにより大きなマスターノードが必要になることがあります。より大きなマスターノードが必要かどうかを確認するには、ノードのメモリと CPU の使用状況をモニタリングします。ワーカーノードは、少なくとも 2 つの CPU と 8 GB のメモリでサイジングすることをおすすめします。大量のメモリを使用するようにパイプラインを構成している場合は、より大きなワーカーを使用する必要があります。

実行時間を最小限に抑えるには、クラスタに、できるだけ多くの並列処理が可能なノードが十分にあることを確認してください。

クラスタのサイジングについて学ぶ。

関連情報

パイプラインを使用すると、Spark ドライバと各 Spark エグゼキュータに渡す CPU 数とメモリ量を指定できます。ドライバの作業はほとんどありません。したがって、ほとんどのパイプラインを実行するには、デフォルト値の 1 CPU と 2 GB のメモリで十分です。多数のステージまたは大きなスキーマを含むパイプラインのメモリ増加が必要になる場合があります。エグゼキュータに割り当てられた CPU の数によって、エグゼキュータが並行して実行できるタスクの数が決まります。

リソースについて学ぶ。

実行エンジンの調整

Cloud Data Fusion バージョン 6.4 以降では、一時的な Dataproc クラスタのパフォーマンスを最適化するように実行エンジンが自動的に構成されます。静的 Dataproc クラスタの場合は、実行エンジンを構成します

詳細

ここに紹介したコンセプトの詳細については、CDAP データ パイプライン パフォーマンス チューニング ガイドをご覧ください。