Dataflow Prime を使用する

Dataflow Prime は、Apache Beam パイプライン用のサーバーレスデータ処理プラットフォームです。Dataflow に基づく Dataflow Prime は、コンピューティングアーキテクチャと状態分離アーキテクチャを使用します。次のような場合、Dataflow Prime はパイプラインの効率を向上させる可能性があります。

パイプラインで垂直自動スケーリングのメリットが得られる。

Dataflow Prime は、バッチパイプラインとストリーミングパイプラインの両方をサポートしています。デフォルトでは、Dataflow Prime はバッチパイプラインに Dataflow Shuffle と Dataflow Runner v2 を使用します。

SDK バージョンのサポート

Dataflow Prime は、次の Apache Beam SDK をサポートします。

Apache Beam Python SDK バージョン 2.21.0 以降
Apache Beam Java SDK バージョン 2.30.0 以降
Apache Beam Go SDK バージョン 2.44.0 以降

SDK パッケージをダウンロードするか、リリースノートを確認する場合は、Apache Beam のダウンロードをご覧ください。

Dataflow Prime の機能

Dataflow Prime は、さまざまな種類のパイプラインに対して次の機能をサポートしています。

垂直自動スケーリング（メモリ）。Python、Java、Go でストリーミングパイプラインをサポートします。
Right Fitting（リソースヒント）。Python と Java でバッチパイプラインをサポートします。
Job Visualizer。Python と Java でバッチパイプラインをサポートします。
スマート推奨事項。Python と Java のストリーミングパイプラインとバッチパイプラインの両方をサポートします。
Data Pipelines。Python と Java のストリーミングパイプラインとバッチパイプラインの両方をサポートします。

Job Visualizer、スマート推奨事項、Data Pipelines などの機能は、Dataflow Prime 以外のジョブでもサポートされています。

垂直自動スケーリング

この機能により、パイプラインのニーズに合わせて Dataflow ワーカー VM で使用可能なメモリが自動的に調整されます。これにより、メモリ不足エラーを防ぐことができます。Dataflow Prime では、垂直自動スケーリングと水平自動スケーリングが連動して、リソースを動的にスケーリングします。

詳細については、垂直自動スケーリングをご覧ください。

Right Fitting

この機能は、Apache Beam の機能であるリソースヒントを使用します。リソースヒントを使用すると、パイプライン全体またはパイプラインの特定のステップのリソース要件を指定できます。Right Fitting 機能を使用すると、パイプラインのステップ用にカスタマイズされたワーカーを作成できます。また、パイプラインリソースを指定することで、効率を最大化し、運用コストを削減できます。また、メモリ不足などのリソースエラーを回避することもできます。メモリと GPU のリソースヒントをサポートします。

Right Fitting では、Apache Beam 2.30.0 以降が必要です。

詳細については、Right Fitting をご覧ください。

Job Visualizer

この機能を使用すると、Dataflow ジョブのパフォーマンスを確認し、並列化のボトルネックなどの非効率的なコードを見つけることで、ジョブのパフォーマンスを最適化できます。 Google Cloud コンソールの [ジョブ] ページで Dataflow ジョブをクリックすると、ジョブの詳細が表示されます。パイプラインの各ステージに関連付けられているステップのリストを確認することもできます。

詳しくは、実行の詳細をご覧ください。

スマート推奨事項

この機能を使用すると、ジョブの詳細ページの [診断] タブに表示される推奨事項に基づいてパイプラインを最適化し、トラブルシューティングを行えます。 Google Cloud コンソールの [ジョブ] ページで Dataflow ジョブをクリックすると、ジョブの詳細が表示されます。

詳細については、診断をご覧ください。

データパイプライン

この機能を使用すると、ジョブのスケジューリング、リソース使用率のモニタリング、ストリーミングデータの鮮度目標の追跡、パイプラインの最適化を行うことができます。

詳細については、Data Pipelines の操作をご覧ください。

割り当てと上限の要件

Dataflow と Dataflow Prime に対する割り当てと上限は同じです。詳細については、割り当てと上限をご覧ください。

Data Pipelines を選択した場合、割り当てとリージョンにさらに影響があります。

サポートされていない機能

Dataflow Prime は、以下のものをサポートしていません。

特定の VM タイプの指定。Python パイプラインの場合は --worker_machine_type または --machine_type フラグを使用します。Java パイプラインの場合は --workerMachineType フラグを使用します。
ワーカー VM の表示または SSH を使用したワーカー VM へのログイン。
Flexible Resource Scheduling（FlexRS）
垂直自動スケーリングでの VPC Service Controls の使用。Dataflow Prime を有効にして VPC Service Controls の境界内で新しいジョブを起動する場合、ジョブは垂直自動スケーリングなしの Dataflow Prime を使用します。
NVIDIA マルチプロセスサービス（MPS）。
次の要件を満たす Java パイプラインでは、MapState クラスと SetState クラスを使用できます。
- Streaming Engine を使用する
- Apache Beam SDK バージョン 2.58.0 以降を使用する
- Runner v2 を使用しない

前述または機能比較表で明記されていないパイプラインオプションはすべて、Dataflow と Dataflow Prime でも同じように機能します。