部署和运行流水线

本页面介绍了有关在 Google Cloud 上部署和运行流水线的基础知识, Cloud Data Fusion。

部署流水线

完成数据流水线的设计和调试并对 预览中显示的数据,就可以部署流水线了。

在您部署流水线时,Cloud Data Fusion Studio 会在后台创建工作流和相应的 Apache Spark 作业。

运行流水线

部署流水线后,您可以通过以下方式运行流水线:

  • 如需按需运行流水线,请打开已部署的流水线,然后点击运行
  • 要安排流水线在特定时间运行,请打开一个已部署的 流水线,然后点击调度
  • 要根据另一个流水线的完成时间来触发流水线,请打开 部署流水线,然后点击传入触发器

Pipeline Studio 会在每次运行流水线时保存其历史记录。您可以 在流水线的不同运行时版本之间切换。

如果流水线包含宏,请为每个宏设置运行时参数。您 也可以先查看和更改流水线配置,然后再运行 部署的流水线。您可以查看流水线运行各阶段的状态变化,例如“正在预配”“正在启动”“正在运行”和“成功”。您还可以随时停止流水线。

如果您启用了插桩测试,就可以浏览 点击流水线中任意节点上的属性,例如 来源、转换或接收器。

如需详细了解流水线运行,请点击摘要

查看运行记录

流水线运行完成后,您可以查看运行记录。默认情况下,您可以 查看过去 30 天的运行记录。Cloud Data Fusion 会在该期限过后删除这些数据。您可以使用 REST API 延长该时间段。

REST API

如需保留超过 30 天的运行记录,请使用以下命令更新 app.run.records.ttl 选项:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

替换以下内容:

  • PROJECT_NAME:Google Cloud 项目名称
  • REGION_NAME:Cloud Data Fusion 实例的 区域,例如 us-east4
  • INSTANCE_NAME:Cloud Data Fusion 实例 ID
  • DAYS:保持运行的时长(以天为单位) (例如 30)。
  • HOURS:要检查和删除的频率(以小时为单位) 旧运行记录(例如 24)。

示例

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

后续步骤