什么是 Cloud Composer?

本页面简要介绍 Cloud Composer,这是一种使用 Apache Airflow 创建和部署工作流的 Google Cloud 解决方案。

为何使用 Cloud Composer?

Cloud Composer 是一项全代管式工作流编排服务,让您能够创建跨云端和本地数据中心的工作流。Cloud Composer 在备受欢迎的 Apache Airflow 开源项目基础上构建而成,通过 Python 编程语言操作,易于使用且没有供应商锁定。通过使用 Cloud Composer(而不是 Apache Airflow 的本地实例),用户可以从 Airflow 的强大功能中获益,而不会产生安装或管理开销。

工作流、DAG 和任务

在数据分析中,工作流表示用于提取、转换、分析或利用数据的一系列任务。在 Airflow 中,工作流是使用 DAG(即“有向无环图”)创建的。

DAG 是要安排和运行的任务的集合,任务的组织方式反映了它们的关系和依赖项。DAG 是在 Python 脚本中创建的,脚本使用代码定义 DAG 结构(任务及其依赖项)。

DAG 中的每个任务可以表示几乎任何事物,例如,一个任务可以执行以下任何功能:

  • 准备数据以进行提取
  • 监控 API
  • 发送电子邮件
  • 运行流水线

DAG 不应该关注每个组成任务的功能,其用途是确保每项任务在正确的时间、以正确的顺序执行,或处理的是正确的问题。

如需详细了解 DAG 和任务,请参阅 Apache Airflow 文档

环境

要运行工作流,首先需要创建一个环境。Airflow 依赖于许多微服务来运行,因此 Cloud Composer 会预配 Google Cloud 组件来运行工作流。这些组件统称为 Cloud Composer 环境

环境是以 Google Kubernetes Engine 为基础的独立 Airflow 部署,它们使用 Airflow 内置的连接器与其他 Google Cloud 服务协同工作。您可以使用任何受支持的区域在单个 Google Cloud 项目中创建一个或多个环境。您可以在任何受支持的区域创建 Cloud Composer 环境。

如需深入了解环境的组件,请参阅 Cloud Composer 环境架构

后续步骤