Dataflow のユースケース

Dataflow は、大規模なストリーミング パイプラインとバッチ パイプラインをサポートするように設計されています。Dataflow は、オープンソースの Apache Beam フレームワークで構築されています。
このページでは、開始に役立つチュートリアルとサンプル ユースケースへのリンクを示します。
データの移動
Kafka から BigQuery にデータを処理する
このチュートリアルでは、Managed Service for Apache Kafka から読み取り、レコードを BigQuery テーブルに書き込む Dataflow テンプレートの実行方法について説明します。
Pub/Sub から BigQuery にデータを処理する
このチュートリアルでは、JSON 形式でエンコードされたメッセージを Pub/Sub から読み取り、BigQuery テーブルに書き込む Dataflow テンプレートの実行方法について説明します。
Dataflow ML
RunInference とエンベディングを使用する
このノートブックでは、RunInference 変換を使用する Apache Beam パイプラインで ML モデルを使用する方法を説明します。
パイプラインで GPU を使用する
このノートブックでは、vLLM と GPU を使用した ML 推論の実行方法を示します。vLLM は、LLM の推論とサービング用のライブラリです。
その他のリソース
リファレンス パターン
Dataflow の一般的なユースケースで使用されるサンプルコードと、技術リファレンス ガイドへのリンク。
e コマース ストリーミングのパイプライン
このチュートリアルでは、Pub/Sub から e コマースデータを変換し、そのデータを BigQuery および Bigtable に出力するパイプラインを作成します。
HPC の高度な並列処理のワークロード
Dataflow を使用すると、高度に並列化されたワークロードを単一のパイプラインで実行できるため、効率が向上し、ワークフローを管理しやすくなります。