此页面由 Cloud Translation API 翻译。

管理流水线配置

本页面介绍了如何管理已部署的流水线。

准备工作

本页内容需要您具备一些关于计算配置文件和流水线性能的背景知识。

您可以更改计算配置文件，也可以自定义运行流水线的默认计算配置文件的参数。如需了解详情，请参阅管理计算配置文件和 Dataproc 预配程序属性。

对于每个流水线，您可以启用或停用插桩（例如时间测量指标）。默认情况下，插桩处于启用状态。启用插桩后，运行流水线时，Cloud Data Fusion 会为每个流水线生成指标节点。以下指标会显示在每个节点的 Metrics 标签页中。通过来源、转换和接收器指标略有不同

除非环境短缺，否则建议您始终启用插桩资源。

对于流处理流水线，您还可以为流式数据设置批处理间隔时间（秒/分钟）。

Apache Spark 是默认的执行引擎。您可以传递自定义参数。如需了解详情，请参阅并行处理。

您可以为 Spark 驱动程序指定内存和 CPU 数量， Executor。驱动程序编排 Spark 作业。Executor 处理数据在 Spark 中进行处理。如需了解详情，请参阅资源管理。

您可以将流水线配置为在流水线运行完成后发送提醒并启动后处理任务。您可以在设计流水线时创建流水线提醒。部署流水线后，您可以查看提醒。您可以修改更改提醒设置如需了解详情，请参阅创建提醒。

如果您希望流水线在 BigQuery 中执行特定转换，可以启用转换推送。如需更多信息请参阅转换下推概览。