管理流水线配置

本页面介绍了如何管理已部署的 流水线。

准备工作

本页内容需要您具备一些关于计算配置文件流水线性能的背景知识。

计算配置文件配置

您可以更改计算配置文件,也可以自定义运行流水线的默认计算配置文件的参数。如需了解详情,请参阅管理计算配置文件Dataproc 预配程序属性

流水线配置

对于每个流水线,您可以启用或停用插桩(例如时间测量指标)。默认情况下,插桩处于启用状态。启用插桩后, 运行流水线时,Cloud Data Fusion 会为每个流水线生成指标 节点。以下指标会显示在每个节点的 Metrics 标签页中。通过 来源、转换和接收器指标略有不同

  • 记录输出
  • 记录在
  • 错误总数
  • 每秒输出的条数
  • 最短处理时间(一条记录)
  • 处理时间上限(一条记录)
  • 标准差
  • 平均处理时间

除非环境短缺,否则建议您始终启用插桩 资源。

对于流处理流水线,您还可以为流式数据设置批处理间隔时间(秒/分钟)。

引擎配置

Apache Spark 是默认的执行引擎。您可以传递自定义参数 。如需了解详情,请参阅并行处理

资源

您可以为 Spark 驱动程序指定内存和 CPU 数量, Executor。驱动程序编排 Spark 作业。Executor 处理数据 在 Spark 中进行处理。如需了解详情,请参阅资源管理

流水线提醒

您可以将流水线配置为在流水线运行完成后发送提醒并启动后处理任务。您可以在设计流水线时创建流水线提醒。部署流水线后,您可以查看提醒。您可以修改 更改提醒设置如需了解详情,请参阅创建提醒

转换推送

如果您希望流水线在 BigQuery 中执行特定转换,可以启用转换推送。如需更多信息 请参阅转换下推概览

后续步骤