Cloud Data Fusion 插件

插件是可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。插件可分为来源、转换、分析、操作、接收器、错误处理程序、提醒发布器和条件等不同类型。以下插件参考表是 Cloud Data Fusion 中所有可用插件的完整列表。如果没有您需要的插件,可以使用 Cloud Data Fusion 的插件 API 构建自己的插件

下表介绍了 Cloud Data Fusion 中可用的不同类型的插件。

类型 说明
来源 来源是您从中获取数据的数据库、文件或实时流的连接器。借助来源,您只需使用简单的界面即可提取数据,无需费心编写低层级中的连接代码。
转换 转换让您能够在提取数据后对其进行操纵。例如,您可以克隆记录,可以设置 JSON 格式,甚至可以使用 JavaScript 插件编写自定义转换。
分析 分析插件用于执行聚合,例如对不同来源的数据进行分组和合并,以及运行分析和机器学习操作。Data Fusion 为众多此类使用场景提供了内置的插件。
操作 操作插件定义一种自定义操作,该操作按计划在工作流中执行,但不会在工作流中直接操纵数据。例如,使用数据库自定义操作,您可以在流水线结束时运行任意数据库命令。或者,您可以触发在 Cloud Storage 内部转移文件的操作。
接收器 数据必须写入接收器。Cloud Data Fusion 包含 Cloud Storage、BigQuery、Cloud Spanner、关系型数据库、文件系统、大型机等各种接收器。
错误处理程序 当节点遇到 null 值、逻辑错误或其他错误来源时,您可以使用错误处理程序插件捕获错误。您可以将此插件连接到任何可以捕获错误的转换或分析插件的输出。随后,您可以通过流水线中单独的错误处理流来处理这些错误。
提醒发布器 提醒发布器是另一种类型的插件,借助此插件,您可以在发生不常见事件时发布通知。下游进程随后可以订阅这些通知,以触发对相应提醒的自定义处理。
条件 流水线还以条件的形式提供控制流插件。借助条件插件,您可以将流水线分为两个单独的路径,具体取决于指定的条件判定结果是 true 还是 false。