在 Cloud Data Fusion 中创建数据流水线时,您需要使用一系列阶段(称为节点)在数据从来源流向接收器时移动和管理数据。每个节点都包含一个插件,即扩展 Cloud Data Fusion 功能的可自定义模块。
您可以转到 Studio 页面,在 Cloud Data Fusion 网页界面中找到这些插件。如需更多插件,请点击 Hub。
插件类型
插件分为以下几类:
- 来源
- 转换
- 分析
- 接收器
- 条件和操作
- 错误处理程序和提醒
来源
来源插件会连接到流水线从中读取数据的数据库、文件或实时流。您可以使用网页界面设置数据流水线的来源,因此无需费心编写低级别连接代码。
转换
从来源提取后,转换插件更改数据。例如,您可以克隆记录,将文件格式更改为 JSON,或使用 JavaScript 插件创建自定义转换。
分析
分析插件执行聚合,例如联接来自不同来源的数据以及运行分析和机器学习操作。
接收器
接收器插件将数据写入资源,例如 Cloud Storage、BigQuery、Spanner、关系型数据库、文件系统和大型机。您可以使用 Cloud Data Fusion 网页界面或 REST API 查询写入接收器的数据。
条件和操作
使用条件和操作插件可安排在工作流中不直接操作工作流数据的操作。例如:
- 使用数据库插件安排在流水线结束时运行数据库命令。
- 使用 File Move 插件,可触发在 Cloud Storage 中移动文件的操作。
错误处理程序和提醒
当阶段遇到 null 值、逻辑错误或其他错误来源时,您可以使用错误处理程序插件捕获错误。执行转换或分析插件后,可使用这些插件查找输出中的错误。您可以将错误写入数据库进行分析。