水平自動スケーリング

水平自動スケーリングを使用すると、Dataflow はジョブに適切な数のワーカーインスタンスを選択し、必要に応じてワーカーの追加または削除を行うことができます。Dataflow は、ワーカーの平均 CPU 使用率とパイプラインの並列処理に基づいてスケーリングを行います。パイプラインの並列処理とは、特定の時点でデータを最も効率的に処理するために必要なスレッド数の見積もりです。

水平自動スケーリングは、バッチパイプラインとストリーミングパイプラインの両方でサポートされています。

バッチ自動スケーリング

水平自動スケーリングは、すべてのバッチパイプラインでデフォルトで有効になっています。Dataflow は、パイプラインの各ステージでの推定合計作業量に基づいてワーカー数を自動的に選択します。この推定値は、入力サイズと現在のスループットによって異なります。Dataflow は 30 秒ごとに実行の進行状況に応じて作業量を再評価します。推定合計作業量が増減すると、Dataflow はワーカー数を動的にスケールアップまたはスケールダウンします。

ワーカー数は作業量に比例しません。たとえば、ジョブで作業量が 2 倍になっても、ワーカー数が 2 倍になるとは限りません。

次のいずれかの条件が発生した場合、Dataflow はアイドル状態のリソースを節約するために、ワーカー数を維持するか減らします。

ワーカーの平均 CPU 使用率が 5% 未満の場合。
並列処理が、圧縮ファイルや分割されない I/O モジュールによって発生する分割不能なデータなど、並列化できない作業によって制限される場合。
並列度が一定の場合（Cloud Storage 内の既存のファイルに書き込む場合など）。

ワーカー数に上限を設定するには、--maxNumWorkers パイプラインオプションを設定します。デフォルト値は 2,000 です。ワーカー数の下限を設定するには、--dataflow-service-options=min_num_workers サービスオプションを設定します。これらのフラグは省略可能です。

ストリーミング自動スケーリング

ストリーミングジョブの場合、水平自動スケーリングを使用すると、Dataflow は負荷とリソース使用率の変化に応じてワーカー数を適宜変更します。

Streaming Engine を使用するストリーミングジョブでは、水平自動スケーリングがデフォルトで有効になります。Streaming Engine を使用しないストリーミングジョブで水平自動スケーリングを有効にするには、パイプラインの起動時に次のパイプラインオプションを設定します。

Java

--autoscalingAlgorithm=THROUGHPUT_BASED
--maxNumWorkers=MAX_WORKERS

MAX_WORKERS は、ワーカーインスタンスの最大数に置き換えます。

Python

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

MAX_WORKERS は、ワーカーインスタンスの最大数に置き換えます。

Go

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

MAX_WORKERS は、ワーカーインスタンスの最大数に置き換えます。

ワーカー数の下限を設定するには、--dataflow-service-options=min_num_workers サービスオプションを設定します。この値を設定すると、水平自動スケーリングは、指定されたワーカー数を下回ってスケーリングされません。このフラグは省略可能です。

ストリーミングジョブの実行中に、処理中のジョブ更新を使用して最小ワーカー数と最大ワーカー数を更新できます。設定を調整するには、min-num-workers フラグと max-num-workers フラグを設定します。詳細については、自動スケーリングの範囲を更新するをご覧ください。