Cloud Data Fusion 概览

Cloud Data Fusion 是一项全代管式云原生企业数据 集成服务,用于快速构建和管理数据流水线。通过 借助 Cloud Data Fusion 网页界面,您可以构建可伸缩的数据集成 解决方案。借助它,您可以连接到各种数据源、转换数据,然后将其传输到各种目标系统,而无需管理基础架构。

Cloud Data Fusion 由开源项目提供支持 CDAP

开始使用 Cloud Data Fusion

只需几分钟即可开始探索 Cloud Data Fusion。

探索 Cloud Data Fusion

以下几个部分介绍了 Cloud Data Fusion 的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户单元内部的一个租户项目中预配的。系统会为每个客户项目创建一个单独的租户项目,其中 Cloud Data Fusion 实例已预配。该租户项目继承相应客户项目的所有网络和防火墙配置。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台(也称为控制平面)是一组 API 操作和一个 Web 界面,用于处理 Cloud Data Fusion 实例本身,例如创建、删除、重启和更新实例。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio(也称为“数据平面”)是一组 REST API 和网页界面 用于处理流水线的创建、执行和管理 相关工件。

概念

本部分介绍 Cloud Data Fusion 的一些核心概念。

概念 说明
Cloud Data Fusion 实例
  • Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署。要开始使用 Cloud Data Fusion,请通过 Google Cloud 控制台创建 Cloud Data Fusion 实例。
  • 您可以在单个 Google Cloud 控制台项目中创建多个实例,且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。
  • 根据您的要求和费用限制,您可以创建开发者、基本或企业实例。
  • 每个 Cloud Data Fusion 实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。
命名空间 命名空间是应用程序、数据和 Cloud Data Fusion 实例中的关联元数据。您可以这样想 用作实例的分区。在单个实例中,一个命名空间会独立于另一个命名空间存储实体的数据和元数据。
流水线
  • 管道是一种直观设计数据和控制机制的方式 用于从中提取、转换、混合、汇总和加载数据的流 各种本地数据源和云数据源
  • 通过构建流水线,您可以创建复杂的数据处理工作流,可帮助您解决数据提取、集成和迁移问题。您可以使用 Cloud Data Fusion 批量流水线和实时流水线。
  • 通过流水线,您可以使用 逻辑数据流,而 Cloud Data Fusion 则负责处理 在执行作业中实际运行所需的功能, 环境
流水线节点
  • 在 Cloud Data Fusion 网页界面的 Studio 页面上,流水线由一系列节点表示,这些节点在有向无环图 (DAG) 中有序排列,形成单向流。
  • 节点代表您使用流水线时可以执行的各种操作,例如从来源读取数据、执行数据转换或将输出写入接收器。您可以通过将来源、转换、接收器和其他节点连接在一起,在 Cloud Data Fusion 网页界面中开发数据流水线。
插件
  • 插件是一个可自定义的模块,可用于扩展 Cloud Data Fusion 的各种功能。
  • Cloud Data Fusion 为来源、转换、聚合、接收器、错误收集器、提醒发布器、操作和运行后操作提供插件。
  • 插件有时称为“节点”,通常位于 Cloud Data Fusion 网页界面的上下文中。
  • 如需发现和访问热门 Cloud Data Fusion 插件, 请参阅 Cloud Data Fusion 插件
集线器 在 Cloud Data Fusion 网页界面中,如需浏览插件、 流水线和其他集成,请点击 Hub。发布插件的新版本后,该版本会显示在任何兼容的 Hub 实例中。即使实例是在 2024 年 3 月之前的 已发布插件。
流水线预览
  • 借助 Cloud Data Fusion Studio,您可以测试数据 对数据子集使用预览进行流水线设计。
  • 预览中的流水线在租户项目中运行。
流水线执行
  • Cloud Data Fusion 会创建临时执行环境, 执行流水线
  • Cloud Data Fusion 支持将 Dataproc 用作执行环境
  • Cloud Data Fusion 会预配临时 API Dataproc 集群(位于 流水线运行开始,在流水线中使用 Spark 执行流水线, 集群,然后在流水线执行完毕后删除该集群 。
  • 或者,如果您管理 Dataproc 集群 通过 Terraform 等技术 也可以将 Cloud Data Fusion 配置为不预配集群。在此类环境中,您可以针对现有的 Dataproc 集群运行流水线。
计算配置文件
  • 计算配置文件指定执行流水线的方式和位置。配置文件包含设置和删除流水线的物理执行环境所需的任何信息。
  • 例如,计算配置文件包含以下内容:
    • 执行预配工具
    • 资源(内存和 CPU)
    • 节点数下限和上限
    • 其他值
  • 配置文件由名称标识,并且必须拥有预配工具及其相关配置。配置文件可位于 Cloud Data Fusion 实例级别或命名空间级别。
  • Cloud Data Fusion 的默认计算配置文件为“自动扩缩”。
可重复使用的流水线
  • 借助 Cloud Data Fusion 中可重复使用的数据流水线,您可以创建单个流水线,将数据集成模式应用于各种使用情形和数据集。
  • 可重复使用的流水线会在执行时设置流水线的大部分配置,而不是在设计时对其进行硬编码,从而提高了可管理性。
触发器
  • Cloud Data Fusion 支持在数据流水线(称为下游流水线)上创建触发器,使其在一个或多个不同流水线(称为上游流水线)完成后运行。您可以选择下游流水线的运行时间,例如上游流水线运行成功、失败、停止或它们的任意组合时。
  • 触发器在以下情况下非常有用:
    • 清理一次数据,然后将其提供给多个下游流水线。
    • 共享信息,例如运行时参数和插件 和流水线之间的各种配置这称为载荷配置
    • 拥有一组动态管道,这些管道可以使用 小时、天、周或月,而不是使用静态流水线 每次运行时都必须更新的值。

Cloud Data Fusion 资源

探索 Cloud Data Fusion 资源:

后续步骤