Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
このページでは、Cloud Composer 環境のアーキテクチャについて説明します。
環境アーキテクチャの構成
Cloud Composer 2 環境には、次のアーキテクチャ構成を設定できます。
顧客プロジェクトとテナント プロジェクト
環境を作成すると、Cloud Composer によってテナントのプロジェクトと顧客プロジェクトの間で環境のリソースが分配されます。
- 顧客プロジェクトは、環境を作成する Google Cloud プロジェクトです。1 つの顧客プロジェクトに複数の環境を作成できます。
テナント プロジェクトは、Google が管理するテナント プロジェクトです。 テナント プロジェクトは、統合されたアクセス制御と環境のデータ セキュリティを強化します。各 Cloud Composer 環境には独自のテナント プロジェクトがあります。
環境コンポーネント
Cloud Composer 環境は、環境コンポーネントから構成されます。
環境コンポーネントは、環境の一部として Google Cloud で実行されるマネージド Airflow インフラストラクチャの要素です。 環境コンポーネントは、環境のテナント プロジェクトまたは顧客プロジェクトで実行されます。
環境のクラスタ
環境のクラスタは、環境の Autopilot モード VPC ネイティブ Google Kubernetes Engine クラスタです。
Cloud Composer では、デフォルトでノードの自動アップグレードとノードの自動修復が有効になり、セキュリティ上の脆弱性から環境のクラスタが保護されます。これらのオペレーションは、環境に指定したメンテナンスの時間枠に行われます。
環境のバケット
環境のバケットは、DAG、プラグイン、データ依存関係、Airflow ログを保存する Cloud Storage バケットです。環境のバケットは顧客プロジェクト内に存在します。
環境のバケット内の /dags
フォルダに DAG ファイルをアップロードすると、DAG は、Cloud Composer によって環境の Airflow コンポーネントと同期されます。
Airflow ウェブサーバー
Airflow ウェブサーバーは環境の Aiflow UI を実行します。
Cloud Composer では、ユーザー ID と、ユーザー用に定義された IAM ポリシー バインディングに基づいて、インターフェースにアクセスできます。
Airflow データベース
Airflow データベースは、環境のテナント プロジェクトで実行される Cloud SQL インスタンスです。Airflow メタデータ データベースをホストします。
Cloud Composer では、機密性の高い接続とワークフロー情報を保護するため、ご使用の環境のサービス アカウントへのデータベース アクセスのみが許可されます。
その他の Airflow コンポーネント
環境で実行されるその他の Airflow コンポーネントは次のとおりです。
Airflow スケジューラは、DAG 定義ファイルを解析し、スケジュール間隔に基づいて DAG の実行をスケジュールして、Airflow ワーカーが実行するタスクをキューに入れます。Cloud Composer 2 では、Airflow DAG プロセッサはスケジューラ コンポーネントの一部として実行されます。
Airflow triggerer は、環境内のすべての遅延タスクを非同期でモニタリングします。環境内の triggerer の数をゼロより大きく設定すると、DAG で遅延可能な演算子を使用できます。
Airflow ワーカーは、Airflow スケジューラによってスケジュールされたタスクを実行します。環境内のワーカーの最小数と最大数は、キュー内のタスクの数に応じて動的に変化します。
パブリック IP 環境のアーキテクチャ
Cloud Composer 2 のパブリック IP 環境アーキテクチャでは、各リソースが次のように機能します。
- Cloud SQL インスタンスと Cloud SQL ストレージは、テナント プロジェクトによってホストされます。
- 環境のその他のすべてのコンポーネントは、お客様のプロジェクトによってホストされます。
- 顧客プロジェクトの Airflow スケジューラとワーカーは、顧客プロジェクトにある Cloud SQL プロキシ インスタンスを介して Airflow データベースと通信します。
プライベート IP 環境のアーキテクチャ
デフォルトでは、Cloud Composer 2 は Private Service Connect を使用するため、プライベート IP 環境は VPC ピアリングを使用せずに内部通信を行います。環境で Private Service Connect の代わりに VPC ピアリングを使用することもできます。これはデフォルト以外のオプションです。
プライベート IP 環境のアーキテクチャでは、各リソースが次のように機能します。
- Cloud SQL インスタンスと Cloud SQL ストレージは、テナント プロジェクトによってホストされます。
- 環境のその他のすべてのコンポーネントは、お客様のプロジェクトによってホストされます。
- Airflow スケジューラとワーカーは、構成された PSC エンドポイントを介して Airflow データベースに接続します。
復元力に優れたプライベート IP アーキテクチャ
復元性に優れた Cloud Composer 環境は、組み込みの冗長性を使用する Cloud Composer 2 と、ゾーン障害や単一障害点の停止に対する環境の脆弱性を軽減するフェイルオーバー メカニズムです。
このタイプのプライベート IP 環境では、次のように動作します。
- 環境の Cloud SQL インスタンスが高可用性向けに構成されます(リージョン インスタンス)。リージョン インスタンスはプライマリ インスタンスとスタンバイ インスタンスで構成されます。
- 環境で 2 つの Airflow スケジューラ、2 つのウェブサーバーを実行し、triggerer が使用されている場合は、最小 2 個(最大で合計 10 個)の triggerer になります。これらのコンポーネントのペアは 2 つの別々のゾーンで実行されます。
- ワーカーの最小数は 2 に設定され、環境のクラスタはワーカー インスタンスをゾーン間で分散します。ゾーンが停止した場合、影響を受けたワーカー インスタンスが別のゾーンで再スケジュールされます。
Cloud Logging および Cloud Monitoring との統合
Cloud Composer は、Google Cloud プロジェクトの Cloud Logging および Cloud Monitoring と統合されているため、Airflow と DAG のログを一元的に表示できます。
Cloud Monitoring が Cloud Composer から指標、イベント、メタデータを収集し取り込むことにより、ダッシュボードとグラフを介して分析情報を得ることができます。
Cloud Logging のストリーミングの性質上、環境の Cloud Storage バケットに Airflow ログが表示されるのを待たずに、Airflow コンポーネントが出力するログを即座に表示できます。
Google Cloud プロジェクト内のログ数を制限するために、すべてのログの取り込みを停止できます。Logging を無効にしないでください。