工作流安排解决方案

本部分介绍可用于安排工作流的 Google Cloud 选项。

Dataproc 工作流模板

Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置。该模板定义了作业图,其中包含在哪里运行这些作业的信息。

Cloud Scheduler

Cloud Scheduler 是一项全托管式企业级 cron 作业调度服务。 它允许您安排几乎任何作业,包括批量作业、大数据作业和 Cloud 基础架构操作。它提供简单的基于时间的安排,例如每天或每小时,您无需编写代码。

优点:

  • 根据熟悉的 cron 表达式启用基于时间的工作流实例化

  • 无需编写代码

教程:使用 Cloud Scheduler 的工作流

Cloud Functions

Cloud Functions 是一种轻量级计算解决方案,可用于创建单一用途的独立函数来响应 Cloud 事件,而无需管理服务器或运行时环境。您可以使用 Cloud Functions 函数来启动工作流,以响应 Cloud Storage 中的 Pub/Sub 事件或文件更改。对于需要计算基于时间的参数的工作流,您可以使用 Cloud Functions 与 Cloud Scheduler。

优点:

  • 启用工作流实例化以响应数据事件,例如 Cloud Storage 中的新文件或 Pub/Sub 事件。

  • 使用 Dataproc GoNode.jsPython 客户端库时所需的编码极少

  • 动态生成工作流和工作流参数

教程:使用 Cloud Functions 的工作流

Cloud Composer

Cloud Composer 是一项托管式 Apache Airflow 服务,可用于创建、安排、监控和管理工作流。

优点:

  • 支持基于时间和事件的安排

  • 使用 Operator 简化对 Dataproc 的调用

  • 动态生成工作流和工作流参数

  • 构建跨多个 Google Cloud 产品的数据流

教程:使用 Cloud Composer 的工作流