ワークフロー スケジューリング ソリューション

このセクションでは、ワークフローのスケジュール設定に使用する Google Cloud のオプションについて説明します。

Dataproc ワークフロー テンプレート

Dataproc のワークフロー テンプレートは、ワークフローを管理、実行するための柔軟で使いやすい機能を提供します。ワークフロー テンプレートは、再利用可能なワークフロー構成です。ジョブを実行する場所に関する情報を含むジョブのグラフを定義します。

Cloud Scheduler

Cloud Scheduler は、エンタープライズ クラスのフルマネージド cron ジョブ スケジューラです。バッチ、ビッグデータ ジョブ、Cloud インフラストラクチャ オペレーションなど、実質的にほぼすべてのジョブをスケジューリングできます。コードを記述することなく、毎日または毎時など、簡単な時間ベースでスケジュールを設定できます。

メリット:

  • 使い慣れた cron 式に基づき、ワークフロー テンプレートを時間ベースでインスタンス化することが可能

  • コードの記述は不要

チュートリアル: Cloud Scheduler を使用するワークフロー

Cloud Functions

Cloud Run 関数は、サーバーやランタイム環境を管理することなく、Cloud イベントに応答する単一目的のスタンドアロン関数を作成できる軽量のコンピューティングソリューションです。Cloud Run 関数を使用して、Pub/Sub イベントや Cloud Storage 内のファイルの変更に応答してワークフローを起動できます。時間ベースのパラメータの計算を必要とするワークフローでは、Cloud Scheduler で Cloud Run 関数を使用できます。

メリット:

  • Cloud Storage や Pub/Sub のイベントに、新しいファイルなどのデータイベントに応じてワークフローをインスタンス化することが可能

  • Dataproc の GoNode.jsPython ライブラリを使用した最小限のコーディング

  • ワークフローとワークフロー パラメータを動的に生成

チュートリアル: Cloud Run 関数を使用するワークフロー

Cloud Composer

Cloud Composer は、ワークフローの作成、スケジュール設定、モニタリング、管理に使用できる、マネージド Apache Airflow サービスです。

メリット:

  • 時間ベースおよびイベントベースのスケジューリングをサポート

  • 演算子を使用した Dataproc の呼び出しの簡素化

  • ワークフローとワークフロー パラメータを動的に生成

  • 複数の Google Cloud プロダクトにまたがるデータフローを構築

チュートリアル: Cloud Composer を使用したワークフロー