Cloud Data Fusion 概览

Cloud Data Fusion 是一项全代管式云原生企业数据集成服务,用于快速构建和管理数据流水线。借助 Cloud Data Fusion 网页界面,您可以构建可伸缩的数据集成解决方案。它可让您连接到各种数据源、转换数据,然后将其传输到各种目标系统,而无需管理基础架构。

Cloud Data Fusion 由开源项目 CDAP 提供支持。

开始使用 Cloud Data Fusion

您可以在几分钟内开始了解 Cloud Data Fusion。

探索 Cloud Data Fusion

以下部分介绍了 Cloud Data Fusion 的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务在租户单元内的租户项目中预配。系统会为每个客户项目创建一个单独的租户项目,并在其中预配 Cloud Data Fusion 实例。该租户项目会继承客户项目的所有网络和防火墙配置。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台(也称为“控制平面”)是一组 API 操作和一个网页界面,用于处理 Cloud Data Fusion 实例本身(例如创建、删除、重启和更新实例)。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio(也称为“数据平面”)是一组 REST API 和网页界面操作,用于处理流水线及相关工件的创建、执行和管理。

概念

本部分介绍 Cloud Data Fusion 的一些核心概念。

概念 说明
Cloud Data Fusion 实例
  • Cloud Data Fusion 实例是 Cloud Data Fusion 的独特部署。如需开始使用 Cloud Data Fusion,请通过 Google Cloud 控制台创建一个 Cloud Data Fusion 实例。
  • 您可以在单个 Google Cloud 控制台项目中创建多个实例,并且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。
  • 根据您的要求和费用限制,您可以创建开发者版、基本版或企业版实例。
  • 每个 Cloud Data Fusion 实例都包含唯一的独立 Cloud Data Fusion 部署,其中包含一组服务,用于处理流水线生命周期管理、编排、协调和元数据管理。这些服务使用租户项目中的长时间运行的资源运行。
命名空间“ 命名空间是 Cloud Data Fusion 实例中应用、数据和关联元数据的逻辑分组。您可以将命名空间视为实例的分区。在单个实例中,一个命名空间会独立于另一个命名空间存储实体的数据和元数据。
流水线
  • 流水线是一种直观设计数据和控制流的方式,用于从各种本地和云数据源提取、转换、混合、汇总和加载数据。
  • 通过构建流水线,您可以创建复杂的数据处理工作流,从而解决数据注入、集成和迁移问题。您可以使用 Cloud Data Fusion 根据需要构建批处理流水线和实时流水线。
  • 借助流水线,您可以使用逻辑数据流来表示数据处理工作流,而 Cloud Data Fusion 则负责处理在执行环境中实际运行所需的所有功能。
流水线节点
  • 在 Cloud Data Fusion 网页界面的 Studio 页面上,流水线表示为排列在有向无环图 (DAG) 中的一系列节点,从而形成单向流。
  • 节点表示您可以对流水线执行的各种操作,例如从来源读取数据、执行数据转换以及将输出写入接收器。通过将来源、转换、接收器和其他节点连接在一起,您可以在 Cloud Data Fusion 网页界面中开发数据流水线。
插件
  • 插件是一个可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。
  • Cloud Data Fusion 为来源、转换、聚合、接收器、错误收集器、提醒发布器、操作和运行后操作提供了插件。
  • 插件有时在 Cloud Data Fusion 网页界面上下文中被称为节点。
  • 如需发现和访问常用的 Cloud Data Fusion 插件,请参阅 Cloud Data Fusion 插件
辐射内容 在 Cloud Data Fusion 网页界面中,点击 Hub 以浏览插件、示例流水线和其他集成。发布新版插件后,您可以在 Hub 的任何兼容的实例中查看该插件。即使实例是在插件发布之前创建的,也是如此。
流水线预览
  • 借助 Cloud Data Fusion Studio,您可以对数据子集使用预览来测试流水线设计的准确性。
  • 预览中的流水线在租户项目中运行。
流水线执行
  • Cloud Data Fusion 会创建临时执行环境来执行流水线。
  • Cloud Data Fusion 支持 Dataproc 作为执行环境
  • 在流水线运行开始时,Cloud Data Fusion 会在您的客户项目中预配一个临时 Dataproc 集群,在该集群中使用 Spark 执行流水线,然后在流水线执行完成后删除该集群。
  • 或者,如果您在受控环境中通过 Terraform 等技术管理 Dataproc 集群,还可以将 Cloud Data Fusion 配置为不预配集群。在这些环境中,您可以针对现有的 Dataproc 集群运行流水线。
计算配置文件
  • 计算配置文件指定了流水线的执行方式和执行位置。配置文件封装了设置和删除流水线物理执行环境所需的所有信息。
  • 例如,计算配置文件包含以下内容:
    • 执行预配工具
    • 资源(内存和 CPU)
    • 节点数下限和上限
    • 其他值
  • 配置文件由名称标识,必须分配一个预配工具及其相关配置。配置文件可以存在于 Cloud Data Fusion 实例级别或命名空间级别。
  • Cloud Data Fusion 的默认计算配置文件为自动扩缩。
可重复使用的流水线
  • 借助 Cloud Data Fusion 中可重复使用的数据流水线,您可以创建单个流水线,从而将数据集成模式应用于各种使用场景和数据集。
  • 可重复使用的流水线可在执行时设置流水线的大部分配置,而不是在设计时对其进行硬编码,从而提升流水线的易管理性。
触发器
  • Cloud Data Fusion 支持在数据流水线(称为下游流水线)上创建触发器,以便在一个或多个不同流水线(称为上游流水线)完成时运行该触发器。您可以选择下游流水线的运行时间,例如上游流水线运行成功、失败、停止或其任意组合时。
  • 触发器在以下情况下很有用:
    • 清理一次数据,然后供多个下游流水线使用。
    • 在流水线之间共享信息,例如运行时参数和插件配置。这称为载荷配置
    • 拥有一组可以使用小时、天、周或月的数据运行的动态流水线,而不是使用每次运行时都必须更新的静态流水线。

Cloud Data Fusion 资源

探索 Cloud Data Fusion 资源:

后续步骤