本页介绍了在 Cloud Data Fusion 中部署和运行流水线的基础知识。
部署流水线
设计和调试数据流水线并对预览中显示的数据感到满意后,您就可以部署流水线了。
在您部署流水线时,Cloud Data Fusion Studio 会在后台创建工作流和相应的 Apache Spark 作业。
运行流水线
部署流水线后,您可以通过以下方式运行流水线:
- 如需按需运行流水线,请打开已部署的流水线,然后点击运行。
- 如需安排流水线在特定时间运行,请打开已部署的流水线,然后点击安排。
- 如需根据另一个流水线完成情况触发流水线,请打开已部署的流水线,然后点击传入触发器。
流水线 Studio 会在每次运行流水线时保存流水线的历史记录。您可以在流水线的不同运行时版本之间切换。
如果流水线包含宏,请为每个宏设置运行时参数。您还可以在运行已部署的流水线之前查看和更改流水线配置。您可以查看流水线运行各阶段的状态变化,例如“正在预配”“正在启动”“正在运行”和“成功”。您也可以随时停止流水线。
如果您启用了插桩,则可以点击流水线中的任何节点(例如来源、转换或接收器)上的属性,以浏览流水线生成的指标。
如需详细了解流水线运行作业,请点击摘要。
查看运行记录
流水线运行完成后,您可以查看运行记录。默认情况下,您可以查看过去 30 天的运行记录。Cloud Data Fusion 会在该期限过后删除这些数据。您可以使用 REST API 延长该期限。
REST API
如需保留超过 30 天的运行记录,请使用以下命令更新 app.run.records.ttl
选项:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
替换以下内容:
PROJECT_NAME
: Google Cloud 项目名称REGION_NAME
:Cloud Data Fusion 实例所在的区域,例如us-east4
INSTANCE_NAME
:Cloud Data Fusion 实例 IDDAYS
:要保留旧流水线运行作业的运行记录的时长(以天为单位),例如30
。HOURS
:检查和删除旧运行记录的频率(以小时为单位),例如24
。
示例:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
后续步骤
- 详细了解流水线配置。