アプリケーション開発

ワークフローから別の並列ワークフローを実行する: 実践ガイド

2023年7月18日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 7 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。

はじめに

複数のタスクを同時に実行したい状況は頻繁にあります。よくあるのは、データをバッチに分割して、各バッチを並列処理し、最後に結果をまとめるというケースです。この方法は、全体的な処理速度を高められるだけでなく、小さいタスクに分割することで、エラー検出がしやすくなるというメリットもあります。

一方で、並列タスクの設定、監視、各タスク内のエラー処理、最終的な結果の統合といった一連の作業には労力がかかります。そこで役に立つのが、Google Cloud の Workflows です。この投稿では、親ワークフローを使って、並列関係にある子ワークフローを設定、実行する方法を紹介します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/0_workflows_executing_workflows_in_paralle.max-1300x1300.png

さっそく始めましょう。

子ワークフローを設定する

まず最初に、並列実行の基盤となる子ワークフローを作成しましょう。

子ワークフローは、親ワークフローから引数を受け取ります。この例では、単純な iteration 整数を使用しますが、実際のケースでは、親ワークフローからデータチャンクを渡すことに対応します。

読み込んでいます...

子ワークフローがなんらかの処理の実行を開始します。この例では、処理を実行する代わりに、単に 10 秒間待機します。

読み込んでいます...

その後、結果またはエラーを返します。このケースでは、結果として、成功またはエラーの代わりに、iteration が偶数か奇数かに基づいて以下のように返します。

読み込んでいます...

定義全体は、workflow-child.yaml ファイルでご確認ください。この子ワークフローをデプロイするには、以下のように指定します。

読み込んでいます...

親ワークフローを設定する

次に、子ワークフローの並列実行を指示する親ワークフローを作成しましょう。親ワークフローではまず、実行結果（成功またはエラー）を保存するマップを初期化します。

読み込んでいます...

次に、親ワークフロー内で並列する for ループを使って、子ワークフローにデータチャンクを渡して実行します。この例では、データの代わりに 1 から 4 までの整数を渡しています。反復処理は互いに独立しているため、parallel キーワードを指定して並列処理を行います。なお、for ループによる反復処理はそれぞれ 1 つのスレッドをスピンアップし、for ループは応答を待機することなく次の反復処理に進むことにご注意ください。

読み込んでいます...