部署和运行流水线

本页介绍了在 Cloud Data Fusion 中部署和运行流水线的基础知识。

部署流水线

设计和调试数据流水线并对预览中显示的数据感到满意后,您就可以部署流水线了。

在您部署流水线时,Cloud Data Fusion Studio 会在后台创建工作流和相应的 Apache Spark 作业。

运行流水线

部署流水线后,您可以通过以下方式运行流水线:

  • 如需按需运行流水线,请打开已部署的流水线,然后点击运行
  • 如需安排流水线在特定时间运行,请打开已部署的流水线,然后点击安排
  • 如需根据另一个流水线完成情况触发流水线,请打开已部署的流水线,然后点击传入触发器

流水线 Studio 会在每次运行流水线时保存流水线的历史记录。您可以在流水线的不同运行时版本之间切换。

如果流水线包含宏,请为每个宏设置运行时参数。您还可以在运行已部署的流水线之前查看和更改流水线配置。您可以查看流水线运行各阶段的状态变化,例如“正在预配”“正在启动”“正在运行”和“成功”。您也可以随时停止流水线。

如果您启用了插桩,则可以点击流水线中的任何节点(例如来源、转换或接收器)上的属性,以浏览流水线生成的指标。

如需详细了解流水线运行作业,请点击摘要

查看运行记录

流水线运行完成后,您可以查看运行记录。默认情况下,您可以查看过去 30 天的运行记录。Cloud Data Fusion 会在该期限过后删除这些数据。您可以使用 REST API 延长该期限。

REST API

如需保留超过 30 天的运行记录,请使用以下命令更新 app.run.records.ttl 选项:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

替换以下内容:

  • PROJECT_NAME: Google Cloud 项目名称
  • REGION_NAME:Cloud Data Fusion 实例所在的区域,例如 us-east4
  • INSTANCE_NAME:Cloud Data Fusion 实例 ID
  • DAYS:要保留旧流水线运行作业的运行记录的时长(以天为单位),例如 30
  • HOURS:检查和删除旧运行记录的频率(以小时为单位),例如 24

示例

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

后续步骤