此页面由 Cloud Translation API 翻译。

部署和运行流水线

本页介绍了在 Cloud Data Fusion 中部署和运行流水线的基础知识。

部署流水线

设计和调试数据流水线并对预览中显示的数据感到满意后，您就可以部署流水线了。

在您部署流水线时，Cloud Data Fusion Studio 会在后台创建工作流和相应的 Apache Spark 作业。

运行流水线

部署流水线后，您可以通过以下方式运行流水线：

如需按需运行流水线，请打开已部署的流水线，然后点击运行。
如需安排流水线在特定时间运行，请打开已部署的流水线，然后点击安排。
如需根据另一个流水线完成情况触发流水线，请打开已部署的流水线，然后点击传入触发器。

流水线 Studio 会在每次运行流水线时保存流水线的历史记录。您可以在流水线的不同运行时版本之间切换。

如果流水线包含宏，请为每个宏设置运行时参数。您还可以在运行已部署的流水线之前查看和更改流水线配置。您可以查看流水线运行各阶段的状态变化，例如“正在预配”“正在启动”“正在运行”和“成功”。您也可以随时停止流水线。

如果您启用了插桩，则可以点击流水线中的任何节点（例如来源、转换或接收器）上的属性，以浏览流水线生成的指标。

如需详细了解流水线运行作业，请点击摘要。

查看运行记录

流水线运行完成后，您可以查看运行记录。默认情况下，您可以查看过去 30 天的运行记录。Cloud Data Fusion 会在该期限过后删除这些数据。您可以使用 REST API 延长该期限。

REST API

如需保留超过 30 天的运行记录，请使用以下命令更新 app.run.records.ttl 选项：

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

替换以下内容：

PROJECT_NAME： Google Cloud 项目名称
REGION_NAME：Cloud Data Fusion 实例所在的区域，例如 us-east4
INSTANCE_NAME：Cloud Data Fusion 实例 ID
DAYS：要保留旧流水线运行作业的运行记录的时长（以天为单位），例如 30。
HOURS：检查和删除旧运行记录的频率（以小时为单位），例如 24。

示例：

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

后续步骤

详细了解流水线配置。