Cloud Composer とは何ですか?

このページでは、Apache Airflow でワークフローを作成、デプロイするための Google Cloud ソリューションである Cloud Composer の概要を説明します。

Cloud Composer を使用する理由

Cloud Composer は、フルマネージドのワークフロー オーケストレーション サービスです。クラウドとオンプレミス データセンターにまたがるワークフローを作成できます。よく利用されている Apache Airflow オープンソース プロジェクトを基に構築され、Python プログラミング言語を使用して運用されています。使いやすく、特定のベンダーに依存することがありません。Apache Airflow のローカル インスタンスではなく Cloud Composer を使用すると、ユーザーはインストールや管理のオーバーヘッドなしに、Airflow のメリットを活用できます。

ワークフロー、DAG、タスク

データ分析では、ワークフローは、データの取り込み、変換、分析、利用のための一連のタスクを表しています。Airflow では、ワークフローは DAG(有向非巡回グラフ)を使用して作成されます。

DAG は、スケジューリングして実行するタスクのコレクションであり、それらの関係と依存関係を反映して編成されます。DAG は Python スクリプトで作成され、コードを使用して DAG の構造(タスクとそれらの依存関係)を定義します。

DAG の各タスクは、ほとんどあらゆるものを表すことができます。たとえば、1 つのタスクで次の機能を行うことがあります。

  • 取り込み用のデータの準備
  • API のモニタリング
  • メール送信
  • パイプラインの実行

DAG は、各構成タスクの機能には関係しません。その目的は、各タスクが適切なタイミング、適切な順序、または適切な問題処理で実行されるようにすることです。

DAG とタスクの詳細については、Apache Airflow のドキュメントをご覧ください。

環境

ワークフローを実行するには、まず環境を作成する必要があります。Airflow は実行する多くのマイクロサービスに基づいているため、Cloud Composer はワークフローを実行する Google Cloud コンポーネントをプロビジョニングします。これらのコンポーネントは、Cloud Composer 環境と総称されます。

環境は、Google Kubernetes Engine に基づく自己完結型の Airflow デプロイメントであり、Airflow に組み込まれているコネクタを使用して他の Google Cloud サービスと連携します。1 つの Google Cloud プロジェクトに 1 つ以上の環境を作成できます。サポートされているリージョンで、Cloud Composer 環境を作成できます。

環境のコンポーネントの詳細については、Cloud Composer 環境のアーキテクチャをご覧ください。

次のステップ