Cloud Data Fusion 概览

Cloud Data Fusion 是一项全代管式云原生企业数据集成服务,用于快速构建和管理数据流水线。借助 Cloud Data Fusion 网页界面,您可以构建可伸缩的数据集成解决方案。您可以连接到各种数据源、转换数据,然后将数据转移到各种目标系统,而无需管理基础架构。

Cloud Data Fusion 由开源项目 CDAP 提供支持。

开始使用 Cloud Data Fusion

您在几分钟内就可以开始探索 Cloud Data Fusion。

探索 Cloud Data Fusion

以下各部分介绍了 Cloud Data Fusion 的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务在租户单元内的一个租户项目中预配。系统会为每个客户项目创建一个单独的租户项目,并在其中预配 Cloud Data Fusion 实例。该租户项目会继承客户项目的所有网络和防火墙配置。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台(也称为“控制平面”)是一组 API 操作和一个网页界面,用于处理 Cloud Data Fusion 实例本身(例如创建、删除、重启和更新实例)。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio(也称为“数据平面”)是一组 REST API 和网页界面操作,用于处理流水线和相关工件的创建、执行和管理。

概念

本部分介绍 Cloud Data Fusion 的一些核心概念。

概念 说明
Cloud Data Fusion 实例
  • Cloud Data Fusion 实例是 Cloud Data Fusion 的独特部署。如需开始使用 Cloud Data Fusion,请通过 Google Cloud 控制台创建一个 Cloud Data Fusion 实例。
  • 您可以在单个 Google Cloud 控制台项目中创建多个实例,并且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。
  • 根据您的要求和费用限制条件,您可以创建开发者版、基本版或企业版实例。
  • 每个 Cloud Data Fusion 实例都包含一个独特、独立的 Cloud Data Fusion 部署,该部署包含一组服务,用于处理流水线生命周期管理、编排、协调和元数据管理。这些服务使用租户项目中的长时间运行的资源运行。
命名空间 命名空间是 Cloud Data Fusion 实例中应用、数据和关联元数据的逻辑分组。您可以将命名空间视为实例的分区。在单个实例中,一个命名空间会独立于另一个命名空间来存储实体的数据和元数据。
流水线
  • 流水线是一种视觉设计数据和控制流的方式,以从各种本地和云数据源提取、转换、混合、汇总和加载数据。
  • 通过构建流水线,您可以创建复杂的数据处理工作流,从而帮助您解决数据注入、集成和迁移问题。您可以使用 Cloud Data Fusion 根据需要构建批处理流水线和实时流水线。
  • 通过流水线,您可以使用逻辑数据流来表达数据处理工作流,而 Cloud Data Fusion 可以处理在执行环境中实际运行所需的所有功能。
流水线节点
  • 在 Cloud Data Fusion 网页界面的 Studio 页面上,流水线表示为排列在有向无环图 (DAG) 中的一系列节点,形成单向流。
  • 节点表示您可以对流水线执行的各种操作,例如从来源读取数据、执行数据转换以及将输出写入接收器。您可以通过将来源、转换、接收器和其他节点连接在一起,在 Cloud Data Fusion 网页界面中开发数据流水线。
插件
  • 插件是可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。
  • Cloud Data Fusion 为来源、转换、聚合、接收器、错误收集器、提醒发布者、操作和运行后操作提供了各种插件。
  • 插件有时也称为节点,通常用于 Cloud Data Fusion 网页界面。
  • 如需了解和访问热门的 Cloud Data Fusion 插件,请参阅 Cloud Data Fusion 插件
Hub 在 Cloud Data Fusion 网页界面中,如需浏览插件、示例流水线和其他集成,请点击 Hub。当有新版本的插件发布后,它在任何兼容的实例的 Hub 中都可见。即使相应实例是在该插件发布之前创建的,也是如此。
流水线预览
  • 借助 Cloud Data Fusion Studio,您可以对数据子集使用预览来测试流水线设计的准确度。
  • 预览版流水线在租户项目中运行。
流水线执行
  • Cloud Data Fusion 会创建临时执行环境来执行流水线。
  • Cloud Data Fusion 支持使用 Dataproc 作为执行环境
  • 开始运行流水线时,Cloud Data Fusion 会在您的客户项目中预配一个临时 Dataproc 集群,使用集群中的 Spark 执行流水线,然后在流水线执行完成后删除集群。
  • 或者,如果您使用 Terraform 等技术在受控环境中管理 Dataproc 集群,则还可以将 Cloud Data Fusion 配置为不预配集群。在这些环境中,您可以针对现有的 Dataproc 集群运行流水线。
计算配置文件
  • 计算配置文件指定执行流水线的方式和位置。配置文件封装了设置和删除流水线物理执行环境所需的所有信息。
  • 例如,计算配置文件包含以下内容:
    • 执行预配工具
    • 资源(内存和 CPU)
    • 节点数下限和上限
    • 其他值
  • 配置文件由名称标识,必须分配有预配工具及其相关配置。配置文件可以存在于 Cloud Data Fusion 实例级层或命名空间级层。
  • Cloud Data Fusion 的默认计算配置文件为自动扩缩。
可重复使用的流水线
  • 借助 Cloud Data Fusion 中可重复使用的数据流水线,您可以创建单个流水线,以便将数据集成模式应用于各种使用场景和数据集。
  • 可重复使用的流水线可在执行时设置流水线的大部分配置,而不是在设计时对其进行硬编码,从而提供更好的可管理性。
触发器
  • Cloud Data Fusion 支持在数据流水线(称为“下游流水线”)上创建触发器,以使其在一个或多个不同流水线(称为“上游流水线”)完成后运行。您可以选择下行流水线的运行时间,例如,上游流水线运行成功、失败、停止或任意组合时。
  • 触发器在以下情况下很有用:
    • 清理数据一次,然后使其可供多个下游流水线使用。
    • 在流水线之间共享信息,例如运行时参数和插件配置。这称为载荷配置
    • 拥有一组可以使用小时、天、周或月数据运行的动态流水线,而不是使用每次运行时都必须更新的静态流水线。

Cloud Data Fusion 资源

探索 Cloud Data Fusion 资源:

后续步骤