工作流安排解决方案

本部分介绍可用于安排工作流的 Google Cloud 选项。

Dataproc 工作流模板

Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置。该模板定义了作业图,其中包含在哪里运行这些作业的信息。

Cloud Scheduler

Cloud Scheduler 是一项全托管式企业级 cron 作业调度服务。 它允许您安排几乎任何作业,包括批量作业、大数据作业和 Cloud 基础架构操作。它提供简单的基于时间的安排,例如每天或每小时,您无需编写代码。

优点:

  • 根据熟悉的 cron 表达式启用基于时间的工作流实例化

  • 无需编写代码

教程:使用 Cloud Scheduler 的工作流

Cloud Functions

Cloud Run 函数是一种轻量级计算解决方案,可用于创建 单一用途的独立函数,无需 而无需管理服务器或运行时环境。您可以使用 使用 Cloud Run 函数启动 Workflows 来响应 Pub/Sub Cloud Storage 中的事件或文件更改。您可以使用 Cloud Run 函数 使用 Cloud Scheduler 计算 基于时间的参数。

优点:

  • 启用工作流实例化以响应数据事件,例如 Cloud Storage 中的新文件或 Pub/Sub 事件。

  • 使用 Dataproc 只需极少的编码 前往Node.js,或 Python 客户端库

  • 动态生成工作流和工作流参数

教程:使用 Cloud Run 函数的工作流

Cloud Composer

Cloud Composer 是一项托管式 Apache Airflow 服务,可用于创建、安排、监控和管理工作流。

优点:

  • 支持基于时间和事件的安排

  • 使用 Operator 简化对 Dataproc 的调用

  • 动态生成工作流和工作流参数

  • 构建跨多个 Google Cloud 产品的数据流

教程:使用 Cloud Composer 的工作流