本页面介绍了有关在 Google Cloud 上部署和运行流水线的基础知识, Cloud Data Fusion。
部署流水线
完成数据流水线的设计和调试并对 预览中显示的数据,就可以部署流水线了。
在您部署流水线时,Cloud Data Fusion Studio 会在后台创建工作流和相应的 Apache Spark 作业。
运行流水线
部署流水线后,您可以通过以下方式运行流水线:
- 如需按需运行流水线,请打开已部署的流水线,然后点击运行。
- 要安排流水线在特定时间运行,请打开一个已部署的 流水线,然后点击调度。
- 要根据另一个流水线的完成时间来触发流水线,请打开 部署流水线,然后点击传入触发器。
Pipeline Studio 会在每次运行流水线时保存其历史记录。您可以 在流水线的不同运行时版本之间切换。
如果流水线包含宏,请为每个宏设置运行时参数。您 也可以先查看和更改流水线配置,然后再运行 部署的流水线。您可以查看流水线运行各阶段的状态变化,例如“正在预配”“正在启动”“正在运行”和“成功”。您还可以随时停止流水线。
如果您启用了插桩测试,就可以浏览 点击流水线中任意节点上的属性,例如 来源、转换或接收器。
如需详细了解流水线运行,请点击摘要。
查看运行记录
流水线运行完成后,您可以查看运行记录。默认情况下,您可以 查看过去 30 天的运行记录。Cloud Data Fusion 会在该期限过后删除这些数据。您可以使用 REST API 延长该时间段。
REST API
如需保留超过 30 天的运行记录,请使用以下命令更新 app.run.records.ttl
选项:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
替换以下内容:
PROJECT_NAME
:Google Cloud 项目名称REGION_NAME
:Cloud Data Fusion 实例的 区域,例如us-east4
INSTANCE_NAME
:Cloud Data Fusion 实例 IDDAYS
:保持运行的时长(以天为单位) (例如30
)。HOURS
:要检查和删除的频率(以小时为单位) 旧运行记录(例如24
)。
示例:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
后续步骤
- 详细了解流水线配置。