Cloud Data Fusion 是一项全托管式云原生企业数据集成服务,用于快速构建和管理数据流水线。
借助 Cloud Data Fusion 网页界面,您可以构建可扩缩的数据集成解决方案来清理、准备、融合、转移和转换数据,而无需管理基础架构。
Cloud Data Fusion 在开源项目 CDAP 的基础上构建而成。本页包含指向 CDAP 文档网站的链接,您可以在该网站中找到更为详细的信息。
接口
要使用 Cloud Data Fusion,您可以使用可视化网页界面或命令行工具。
使用无代码网页界面
使用 Cloud Data Fusion 时,您同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 网页界面。
在 Google Cloud Console 中,您可以创建 Google Cloud 项目、创建和删除 Cloud Data Fusion 实例(Cloud Data Fusion 的唯一部署),以及查看 Cloud Data Fusion 实例详情。
在 Cloud Data Fusion 界面中,您可以通过各种页面(如流水线 Studio 或 Wrangler)直观地设计数据流水线并使用 Cloud Data Fusion 功能。
概括来讲,您需要执行以下步骤:
在 Google Cloud Console 中创建 Cloud Data Fusion 实例。
在 Google Cloud 控制台的“实例”页面中找到 Cloud Data Fusion 实例,然后点击操作列中的查看实例链接。此操作将在新的浏览器标签页中打开 Cloud Data Fusion 界面。
使用 Cloud Data Fusion 网页界面中的各种页面,以可视化方式设计流水线并管理元数据。
使用命令行工具
除了使用网页界面,您还可以使用命令行工具来创建和管理 Cloud Data Fusion 实例和流水线。
REST 参考文档介绍了用于在 Google Cloud 上创建和管理 Cloud Data Fusion 实例的 API。
CDAP 参考文档介绍了用于创建和管理流水线和数据集的 REST API。
核心概念
本部分内容介绍 Cloud Data Fusion 的一些核心概念。某些部分提供指向 CDAP 文档的链接,您可以在该文档中详细了解每个概念。
Cloud Data Fusion 实例
Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署。如需开始使用 Cloud Data Fusion,您可以通过 Google Cloud 控制台创建 Cloud Data Fusion 实例。
您可以在单个 Google Cloud Console 项目中创建多个实例,并且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。
根据您的要求和费用限制,您可以创建开发者、基本或企业实例。
每个 Cloud Data Fusion 实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。
执行环境
当您手动运行流水线时,或者流水线依据时间表或流水线状态触发器运行时,Cloud Data Fusion 会创建临时执行环境来运行流水线。 Cloud Data Fusion 支持将 Dataproc 作为执行环境,在此环境中,您可以选择以 MapReduce、Spark 或 Spark Streaming 程序的形式运行流水线。当流水线开始运行时,Cloud Data Fusion 会在您的客户项目中预配一个临时 Dataproc 集群,然后在该集群中使用 MapReduce 或 Spark 执行流水线,最后在流水线执行完以后删除该集群。
或者,如果您通过 Terraform 等技术在受控环境中管理 Dataproc 集群,还可以将 Cloud Data Fusion 配置为不预配集群。在此类环境中,您可以针对现有的 Dataproc 集群运行流水线。
自动扩缩
您可以使用预定义的 Cloud Data Fusion 自动扩缩政策或您自己的政策来自动处理集群资源。
如需了解如何创建您自己的政策来增加集群工作器以满足工作负载需求,请参阅自动扩缩集群。
如需了解如何在 Cloud Data Fusion 6.6 及更高版本中运行的流水线使用预定义的自动扩缩政策,请参阅何时使用自动扩缩。
流水线
流水线是一种可视化数据设计和流控制方式,用于从各种本地数据源和云数据源提取、转换、融合、聚合和加载数据。通过构建流水线,您可以创建复杂的数据处理工作流,从而帮助您解决数据注入、集成和迁移问题。您可以根据需要,使用 Cloud Data Fusion 构建批处理流水线和实时流水线。
借助流水线,您可以使用逻辑数据流表达您的数据处理工作流,同时 Cloud Data Fusion 处理需要以物理方式在执行环境中执行的所有功能。Cloud Data Fusion 的规划器使用 Dataproc 上的 Apache Spark 和 Apache Hadoop MapReduce 将逻辑流转换为并行计算。
流水线节点
在 Cloud Data Fusion 界面的 Studio 页面中,流水线由一系列节点表示,这些节点在有向无环图 (DAG) 中有序排列,形成单向流。节点表示您可以对流水线执行的各种操作,例如从来源读取数据、执行数据转换,以及将输出写入接收器。通过将来源、转换、接收器和其他节点连接在一起,您可以在 Cloud Data Fusion 界面中开发数据流水线。
通过提供对日志和指标的访问权限,流水线为管理员提供了一种轻松使用自定义数据处理工作流的方法,而无需自定义工具。
如需详细了解流水线,请访问 CDAP 文档网站。
流水线类型
Cloud Data Fusion 支持批量和实时数据流水线。
- 批处理流水线
- 您计划使用触发器或时间表定期运行批处理流水线。它们从批量来源读取数据,执行可选转换,然后将输出写入一个或多个批量接收器。
- 实时流水线
- 实时流水线定期轮询来源以提取数据,执行可选转换,然后将输出写入一个或多个实时接收器。
复制作业
借助复制功能,您可以将数据从 SQL Server 和 MySQL 等操作 Datastore 持续实时地复制到 BigQuery。
如需了解详情,请参阅复制作业页面。
触发
您可以在数据流水线(称为上游流水线)上创建触发器,使其在一个或多个不同流水线(称为下游流水线)完成后运行。您可以选择下游流水线的运行时间,即上游流水线运行成功、失败、停止或它们的任意组合时。
触发器非常适用于:
- 清理一次数据,并将其提供给多个下游流水线。
- 在流水线之间共享信息,例如运行时参数和插件配置。这称为载荷配置。
- 具有一组可以使用每小时/天/周/月的数据运行的动态流水线,而不是必须在每次运行时更新的静态流水线。
插件
插件是可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。Cloud Data Fusion 为来源、转换、聚合、接收器、错误收集器、提醒发布器、操作和运行后操作提供插件。
插件有时称为“节点”,通常位于 Cloud Data Fusion 网页界面的上下文中。
下表说明了 Cloud Data Fusion 中提供的各种插件类别。
类别 | 说明 |
---|---|
来源 | 来源是您从中获取数据的数据库、文件或实时流的连接器。借助来源,您只需使用简单的界面即可注入数据,因此不必担心编写低级连接代码。 |
转换 | 转换使您能够在提取数据后操作数据。例如,您可以克隆记录、设置 JSON 格式,甚至可以使用 JavaScript 插件创建自定义转换。 |
Analytics | 分析插件用于执行聚合,例如对不同来源的数据进行分组和合并,以及运行分析和机器学习操作。Cloud Data Fusion 为各种此类使用场景提供了内置插件。 |
操作 | 操作插件定义一种自定义操作,该操作按计划在工作流中执行,但不会在工作流中直接操纵数据。例如,使用数据库自定义操作,您可以在流水线结束时运行任意数据库命令。或者,您可以触发在 Cloud Storage 内部移动文件的操作。 |
接收器 | 数据必须写入接收器。Cloud Data Fusion 包含 Cloud Storage、BigQuery、Spanner、关系型数据库、文件系统、大型机等各种接收器。 |
错误收集器 | 当节点遇到 null 值、逻辑错误或其他错误来源时,您可以使用错误收集器插件来捕获错误。您可以将此插件连接到任何将会捕获与您所定义条件匹配的错误的转换或分析插件的输出。随后,您可以通过流水线中单独的错误处理流来处理这些错误。 |
提醒发布器 | 提醒发布商插件可让您在发生不常见事件时发布通知。下游进程随后可以订阅这些通知,以触发对相应提醒的自定义处理。 |
条件语句 | 流水线以条件语句的形式提供了控制流插件。借助条件插件,您可以将流水线拆分为两个单独的路径,具体取决于指定的条件判定结果是 true 还是 false。 |
如需探索和访问热门 Cloud Data Fusion 插件,请参阅 Cloud Data Fusion 插件。
如果尚未提供您需要的插件,可以自行开发自定义插件。
警告:建议您不要安装不受信任的插件,因为它可能会带来安全风险。
计算配置文件
计算配置文件指定执行流水线的方式和位置。配置文件封装了设置和删除流水线的物理执行环境所需的任何信息。例如,配置文件包括云服务商的类型(如 Google Cloud)、要在云服务商上使用的服务(如 Dataproc)、凭据、资源(内存和 CPU)、映像、节点数下限和上限,以及其他值。
配置文件由名称标识,并且必须拥有预配工具及其相关配置。配置文件可位于 Cloud Data Fusion 实例级别或命名空间级别。
如需详细了解配置文件,请访问 CDAP 文档网站。
特性
类别 | 特性 |
---|---|
开发 |
|
测试 |
|
执行 |
|
运维 |
|
集成元数据 |
|
可扩展性 |
|
可重用性 |
|
Google Cloud 集成 |
|
连接器 (Google Cloud) |
|
连接器(非 Google Cloud) |
|
转换 |
|
Analytics |
|
后续步骤
- 参阅 Cloud Data Fusion 常见使用场景。
- 参阅 Cloud Data Fusion 价格。
- 创建 Cloud Data Fusion 实例。
- 完整学习教程。