本页介绍了在您创建 Cloud Data Fusion 实例时默认安装的插件类型。这些插件可在实例的默认命名空间以及您创建的任何新命名空间中使用。您可以从 Hub 下载其他插件。
在 Cloud Data Fusion 中,插件分为以下类别。它们会显示在 Cloud Data Fusion Studio 页面的左侧面板中。
来源
来源插件会连接到流水线读取数据的数据库、文件或实时流。您可以使用网页界面为数据流水线设置来源,因此无需使用代码来配置低级连接。
转换
转换插件会在从来源加载数据后更改数据。例如,您可以使用这些插件克隆记录、将文件格式更改为 JSON,或使用 JavaScript 创建自定义转换。
分析
分析插件用于执行聚合,例如对不同来源的数据进行联接,以及运行分析和机器学习操作。
接收器
接收器插件会将数据写入 Cloud Storage、BigQuery、Spanner、关系型数据库、文件系统和大型机等资源。您可以使用 Cloud Data Fusion 网页界面或 REST API 查询写入到接收器的数据。
条件和操作
条件和操作插件会安排在工作流中执行的操作,但不会直接操纵工作流中的数据。
应用场景示例:
- 通过将数据库操作插件添加到流水线,安排在流水线结束时运行数据库命令。
- 将“文件移动”插件添加到流水线,以触发在 Cloud Storage 中移动文件的操作。
错误处理程序和提醒
当流水线的各个阶段遇到 null 值、逻辑错误或其他错误时,错误处理程序插件会捕获这些错误。您可以使用这些插件在流水线中的转换或分析插件之后查找输出中的错误。您可以将错误写入数据库以进行分析。