Cloud Data Fusion 概览

Cloud Data Fusion 是一项全代管式云原生企业数据 集成服务,用于快速构建和管理数据流水线。通过 借助 Cloud Data Fusion 网页界面,您可以构建可伸缩的数据集成 解决方案。它可让您连接到各种数据源、转换数据,以及 然后将数据传输到不同的目标系统,而无需管理 基础架构

Cloud Data Fusion 由开源项目提供支持 CDAP

开始使用 Cloud Data Fusion

您可以在几分钟内开始了解 Cloud Data Fusion。

探索 Cloud Data Fusion

以下内容介绍了 Cloud Data Fusion 的主要组件 部分。

租户项目

构建和编排 Cloud Data Fusion 所需的一组服务 流水线和存储流水线元数据在一个租户 project 单位。系统会为每个客户项目创建一个单独的租户项目,其中 Cloud Data Fusion 实例已预配。租户项目继承 客户项目的所有网络和防火墙配置。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台(也称为控制平面)是一个 一组 API 操作 以及用于处理 Cloud Data Fusion 实例本身的网页界面, 例如创建、删除、重启和更新。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio(也称为“数据平面”)是一组 REST API 和网页界面 用于处理流水线的创建、执行和管理 相关工件。

概念

本部分介绍 Cloud Data Fusion 的一些核心概念。

概念 说明
Cloud Data Fusion 实例
  • Cloud Data Fusion 实例是 Cloud Data Fusion 的 Cloud Data Fusion。要开始使用 Cloud Data Fusion,您需要 创建 Cloud Data Fusion 实例,方法是 Google Cloud 控制台。
  • 您可以在单个 Google Cloud 控制台中创建多个实例 并指定 Google Cloud 区域来创建您的 Cloud Data Fusion 实例。
  • 根据您的要求和费用限制,您可以 开发者版、基本版或企业版 实例。
  • 每个 Cloud Data Fusion 实例都包含一个唯一、 Cloud Data Fusion 部署,其中包含一组服务, 用于处理流水线生命周期管理、编排、 协调和元数据管理。这些服务使用 或运行时间较长的资源 租户项目
命名空间“ 命名空间是应用程序、数据和 Cloud Data Fusion 实例中的关联元数据。您可以这样想 用作实例的分区。在单个实例中 一个命名空间分别存储实体的数据和元数据 另一个命名空间中的资源。
流水线
  • 管道是一种直观设计数据和控制机制的方式 用于从中提取、转换、混合、汇总和加载数据的流 各种本地数据源和云数据源
  • 通过构建流水线,您可以创建复杂的数据处理 可帮助您解决数据注入、集成和 迁移问题您可以使用 Cloud Data Fusion 批量流水线和实时流水线。
  • 通过流水线,您可以使用 逻辑数据流,而 Cloud Data Fusion 则负责处理 在执行作业中实际运行所需的功能, 环境
流水线节点
  • 在 Cloud Data Fusion 网页界面的 Studio 页面上, 以一系列节点的形式来表示,这些节点以 无环图 (DAG),形成单向流。
  • 节点表示您可以对 流水线,例如从来源读取数据、执行数据 转换并将输出写入接收器。您可以开发数据 Cloud Data Fusion 网页界面中连接流水线 来源、转换、接收器和其他节点。
插件
  • 插件是一个可自定义的模块,可用于扩展 Cloud Data Fusion 的各种功能。
  • Cloud Data Fusion 为来源、转换和 包括汇总、接收器、错误收集器、提醒发布商、操作 运行后操作。
  • 插件有时也称为节点,通常在 Cloud Data Fusion 网页界面的上下文。
  • 如需发现和访问热门 Cloud Data Fusion 插件, 请参阅 Cloud Data Fusion 插件
辐射内容 在 Cloud Data Fusion 网页界面中,如需浏览插件、 流水线和其他集成,请点击 Hub。当新的 发布插件版本后,在任何实例的 Hub 中都能看到该插件 都是兼容的。即使实例是在 2024 年 3 月之前的 已发布插件。
流水线预览
  • 借助 Cloud Data Fusion Studio,您可以测试数据 对数据子集使用预览进行流水线设计。
  • 预览中的流水线在租户项目中运行。
流水线执行
  • Cloud Data Fusion 会创建临时执行环境, 执行流水线
  • Cloud Data Fusion 支持 Dataproc, 执行环境
  • Cloud Data Fusion 会预配临时 API Dataproc 集群(位于 流水线运行开始,在流水线中使用 Spark 执行流水线, 集群,然后在流水线执行完毕后删除该集群 。
  • 或者,如果您管理 Dataproc 集群 通过 Terraform 等技术 还可以将 Cloud Data Fusion 配置为不预配集群。在 您可以针对现有集群 Dataproc 集群。
计算配置文件
  • 计算配置文件指定了流水线的使用方式和位置 。配置文件用于封装设置和设置 删除流水线的物理执行环境。
  • 例如,计算配置文件包含以下内容:
    • 执行预配工具
    • 资源(内存和 CPU)
    • 节点数下限和上限
    • 其他值
  • 配置文件由名称标识,必须分配一个预配工具 及其相关配置配置文件可存在于 Cloud Data Fusion 实例级或命名空间级。
  • Cloud Data Fusion 的默认计算配置文件为 自动扩缩。
可重复使用的流水线
  • Cloud Data Fusion 中可重复使用的数据流水线允许创建 将数据集成模式应用于单个流水线的工作流, 各种各样的使用场景和数据集。
  • 可重复使用的流水线通过设置大部分规则来提升 流水线的配置, 在设计时对其进行硬编码。
触发器
  • Cloud Data Fusion 支持根据数据创建触发器 流水线(称为下游流水线) 一个或多个不同流水线(称为上游)的完成 流水线)。您可以选择下游流水线的运行时间, 例如,在成功、失败、停止或以上任意组合发生时, 上游流水线运行作业的一部分。
  • 触发器在以下情况下很有用:
    • 清理数据一次,然后提供给 多个下游流水线以供使用。
    • 共享信息,例如运行时参数和插件 和流水线之间的各种配置这称为载荷 配置
    • 拥有一组动态管道,这些管道可以使用 小时、天、周或月,而不是使用静态流水线 每次运行时都必须更新的值。

Cloud Data Fusion 资源

探索 Cloud Data Fusion 资源:

后续步骤