本页面介绍了如何管理已部署的 流水线。
准备工作
计算配置文件配置
您可以更改计算配置文件,也可以自定义默认值的参数 用于运行流水线的计算配置文件如需了解详情,请参阅 管理计算配置文件和 Dataproc 预配工具属性。
流水线配置
对于每个流水线,您可以启用或停用插桩,例如时间 指标。默认情况下,插桩处于启用状态。启用插桩后, 运行流水线时,Cloud Data Fusion 会为每个流水线生成指标 节点。以下指标会显示在每个节点的指标标签页中。通过 来源、转换和接收器指标略有不同
- 记录输出
- 中的记录
- 错误总数
- 每秒输出的条数
- 最短处理时间(一条记录)
- 处理时间上限(一条记录)
- 标准差
- 平均处理时间
除非环境短缺,否则建议您始终启用插桩 资源。
对于流处理流水线,您还可以设置批处理间隔 (秒/分钟)。
引擎配置
Apache Spark 是默认执行引擎。您可以传递自定义参数 。如需了解详情,请参阅并行处理。
资源
您可以为 Spark 驱动程序指定内存和 CPU 数量, Executor。驱动程序编排 Spark 作业。Executor 处理数据 在 Spark 中进行处理。如需了解详情,请参阅资源管理。
流水线提醒
您可以配置流水线以发送提醒并启动后期处理任务 在流水线运行完成后运行在设计流水线时,您需要创建流水线 流水线。部署流水线后,您可以查看提醒。您可以修改 更改提醒设置如需了解详情,请参阅 创建提醒。
转换推送
如果要执行流水线,可以启用转换下推 BigQuery 中的某些转换。如需更多信息 请参阅转换下推概览。