Dataproc の高度な柔軟性モード

Dataproc の高度な柔軟性モード（EFM）は、シャッフルデータを管理して、動作中のクラスタからのノードの削除に起因するジョブ進行の遅延を最小限に抑えます。EFM は、プライマリワーカーにデータを書き込むことでシャッフルデータの負荷を軽減します。ワーカーは、削減フェーズ中にこれらのリモートノードからプル操作を実行します。このモードは Spark ジョブでのみ使用できます。

セカンダリワーカーに中間シャッフルデータが保存されることはないため、EFM はプリエンプティブル VM を使用するクラスタ、またはセカンダリワーカーグループの自動スケーリングのみを行うクラスタに適しています。

EFM は、Dataproc 2.0.31+、2.1.6+、2.2+ 以降のイメージバージョンでサポートされています。

制限事項:

AppMaster の再配置に対応していない Apache Hadoop YARN ジョブは、高度な柔軟性モードで失敗する可能性があります（AppMaster の終了を待つタイミングをご覧ください）。
以下に対しては、高度な柔軟性モードはおすすめしません。
- プライマリワーカーのみのクラスタ。
- ストリーミングジョブのみ（ジョブの完了後、中間シャッフルデータのクリーンアップに最大 30 分かかる場合があるため）。
- ノートブックを実行するクラスタ（セッションの存続期間中にシャッフルデータがクリーンアップされない可能性があるため）。
- 正常なデコミッションを有効にしてクラスタ上で Spark ジョブを実行する場合。YARN の正常なデコミッションメカニズムは、関連するすべてのアプリケーションが完了するまでデコミッションノードを保持しているため、正常なデコミッションと EFM を複数の目的に使用できます。
- Spark ジョブと非 Spark ジョブの両方を実行するクラスタ。
以下の場合は、高度な柔軟性モードはサポートされません。
- プライマリワーカーの自動スケーリングが有効な場合。ほとんどの場合、プライマリワーカーは、自動的に移行されないシャッフルデータを保持します。プライマリワーカーグループをダウンスケーリングすると EFM の利点がなくなります。

高度な柔軟性モードを使用する

高度な柔軟性は、dataproc:efm.spark.shuffle クラスタプロパティを primary-worker に設定してクラスタを作成すると有効になります。

例:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
     other flags ...

Apache Spark の例

EFM クラスタで Spark サンプル jar を使用して、一般公開のシェイクスピアテキストに対して WordCount ジョブを実行します。

gcloud dataproc jobs submit spark \
    --cluster=cluster-name \
    --region=region \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.JavaWordCount \
    -- gs://apache-beam-samples/shakespeare/macbeth.txt

ローカル SSD を構成する

EFM は VM に接続されたディスクに中間シャッフルデータを書き込むため、ローカル SSD が提供する追加のスループットと IOPS の恩恵を受けます。リソース割り当てを容易に行うため、プライマリワーカーマシンを構成するときに、4 つの vCPU あたり約 1 個のローカル SSD パーティションという目標を設定します。

ローカル SSD を接続するには、--num-worker-local-ssds フラグを gcloud Dataproc clusters create コマンドに渡します。

通常、セカンダリワーカーでローカル SSD を使用する必要はありません。セカンダリワーカーはローカルにシャッフルデータを書き込まないため、クラスタのセカンダリワーカーにローカル SSD を追加すること（--num-secondary-worker-local-ssds フラグを使用）は、多くの場合、さほど重要ではありません。ただし、ローカル SSD はローカルディスクのパフォーマンスを向上させるため、ローカルディスクの使用が原因でジョブが I/O バウンドになると思われる場合は、ローカル SSD をセカンダリワーカーに追加することもできます。ジョブが一時的な領域確保のためかなりのローカルディスクを使用しているか、パーティションが大きすぎてメモリに収まらず、ディスクに移動します。

セカンダリワーカーの比率

セカンダリワーカーはシャッフルデータをプライマリワーカーに書き込むため、ジョブのシャッフル負荷に対応できる十分な CPU、メモリ、ディスクリソースを持つ十分な数のプライマリワーカーがクラスタに含まれている必要があります。クラスタの自動スケーリングを目的としてプライマリグループのスケーリングと望ましくない挙動を防ぐため、minInstances をプライマリワーカーグループの自動スケーリングポリシーの maxInstances 値に設定します。

セカンダリワーカーの比率がプライマリワーカーに対して高い（10:1 など）場合は、プライマリワーカーの CPU 使用率、ネットワーク、ディスク使用量をモニタリングして、過負荷状態かどうかを判断します。手順は次のとおりです。

Google Cloud コンソールの [VM インスタンス] ページに移動します。
プライマリワーカーの左側にあるチェックボックスをオンにします。
[モニタリング] タブをクリックして、プライマリワーカーの CPU 使用率、ディスク IOPS、ネットワークバイト数などの指標を表示します。

プライマリワーカーが過負荷になっている場合は、プライマリワーカーの手動でのスケールアップを検討してください。

プライマリワーカーグループのサイズを変更する

プライマリワーカーグループは安全にスケールアップできますが、プライマリワーカーグループをダウンスケーリングすると、ジョブの進行状況に悪影響が及ぶ可能性があります。プライマリワーカーグループをスケールダウンするオペレーションでは、正常なデコミッションを適用する必要があります。これは --graceful-decommission-timeout フラグを設定することで有効になります。

自動スケーリングされたクラスタ: 自動スケーリングポリシーが設定されている EFM クラスタで、プライマリワーカーグループのスケーリングが無効になります。自動スケーリングされたクラスタでプライマリワーカーグループのサイズを変更するには、次の操作を行います。

自動スケーリングを無効にします。

gcloud dataproc clusters update \
    --cluster=cluster-name \
    --region=region \
    --disable-autoscaling

プライマリグループをスケーリングします。

gcloud dataproc clusters update \
    --cluster=cluster-name \
    --region=region \
    --num-workers=num-primary-workers \
    --graceful-decommission-timeout=graceful-decommission-timeout # (if downscaling)

自動スケーリングを再度有効にします。

gcloud dataproc clusters update \
    --cluster=cluster-name \
    --region=region \
    --autoscaling-policy=autoscaling-policy

プライマリワーカーディスクの使用状況をモニタリングする

プライマリワーカーには、クラスタのシャッフルデータ用の十分なディスク容量が必要です。remaining HDFS capacity 指標を使用して、この機能をモニタリングできます。ローカルディスクがいっぱいになると、HDFS のスペースが利用できなくなり、残りの容量が減少します。

デフォルトでは、プライマリワーカーのローカルディスクの使用量が容量の 90% を超過すると、YARN ノード UI でノードが UNHEALTHY に指定されます。ディスク容量に関する問題が発生した場合は、HDFS から未使用のデータを削除するか、プライマリワーカープールをスケールアップします。

詳細構成

パーティショニングと並列処理

Spark ジョブを送信するときは、適切なレベルのパーティショニングを構成します。シャッフルステージの入力パーティションと出力パーティション数を決定する場合は、さまざまなパフォーマンス特性のトレードオフを検討する必要があります。ジョブ形態に適した値を試すことをおすすめします。

入力パーティション

Spark と MapReduce の入力パーティショニングは、入力データセットによって決定されます。Cloud Storage からファイルを読み取る際に、各タスクは 1 つのブロックサイズのデータを処理します。

Spark SQL ジョブの場合、パーティションの最大サイズは spark.sql.files.maxPartitionBytes で制御されます。次のように、1 GB に増やすことを検討してください。spark.sql.files.maxPartitionBytes=1073741824
Spark RDD の場合、通常、パーティションサイズは fs.gs.block.size で制御され、デフォルトは 128 MB です。1 GB に増やすことを検討してください。例: --properties spark.hadoop.fs.gs.block.size=1073741824

出力パーティション

後続のステージのタスク数は、複数のプロパティによって制御されます。1 TB 以上を処理する大きなジョブの場合は、パーティションごとに少なくとも 1 GB を用意することを検討してください。

Spark SQL の場合、出力パーティションの数は spark.sql.shuffle.partitions によって制御されます。
RDD API を使用する Spark ジョブの場合、出力パーティションの数を指定するか、spark.default.parallelism を設定します。

プライマリワーカーのシャッフル調整

最も重要なプロパティは --properties yarn:spark.shuffle.io.serverThreads=<num-threads> です。Spark のシャッフルサーバーはノードマネージャーの一部として実行されるため、これはクラスタレベルの YARN プロパティである点に注意してください。マシンではデフォルトでコアが 2 倍になります（たとえば、n1-highmem-8 の場合は 16 スレッド）。[Shuffle Read Blocked Time] が 1 秒を超え、プライマリワーカーがネットワーク、CPU、ディスクの上限に達していない場合は、シャッフルサーバーのスレッド数を増やすことを検討してください。

大規模なマシンタイプでは、spark.shuffle.io.numConnectionsPerPeer （デフォルトは 1）を増やすことを検討してください。（たとえば、ホストのペアごとに 5 つの接続を設定します）。

再試行回数を増やす

アプリマスター、タスク、ステージに対して許可される最大試行回数は、次のプロパティを設定することによって構成できます。

yarn:yarn.resourcemanager.am.max-attempts
spark:spark.task.maxFailures
spark:spark.stage.maxConsecutiveAttempts

正常にデコミッションせずに多くのプリエンプティブル VM または自動スケーリングを使用するクラスタでは、アプリマスターとタスクがより頻繁に終了するため、それらのクラスタ内で上記の値を引き上げることをおすすめします（なお、Spark と正常なデコミッションは EFM とは併用できません）。

EFM クラスタでの YARN の正常なデコミッション

YARN の正常なデコミッションを使用すると、実行中のアプリケーションへの影響を最小限に抑えながらノードを迅速に削除できます。自動スケーリングクラスタの場合、正常なデコミッションのタイムアウトは、EFM クラスタに接続されている AutoscalingPolicy で設定できます。

EFM による正常なデコミッションの強化

中間データは分散ファイルシステムに保存されるため、ノード上で実行中のすべてのコンテナが終了するとすぐに、EFM クラスタからノードを削除できます。これに対し、アプリケーションが完了するまでは、標準の Dataproc クラスタ上のノードは削除されません。
ノードの削除は、ノードで実行されているアプリマスターの終了を待機しません。アプリマスターのコンテナが終了されると、デコミッションされていない別のノードで再度スケジュール設定されます。ジョブの進捗率は失われません。新しいアプリマスターは、ジョブ履歴を読み取ることで以前のアプリマスターから状態を迅速に回復します。