Cloud Data Fusion 概览
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Cloud Data Fusion 是一项全托管式云原生企业数据集成服务,用于快速构建和管理数据流水线。借助 Cloud Data Fusion 网页界面,您可以构建可扩缩的数据集成解决方案。借助它,您可以连接到各种数据源、转换数据,然后将其传输到各种目标系统,而无需管理基础架构。
Cloud Data Fusion 在开源项目 CDAP 的基础上构建而成。
开始使用 Cloud Data Fusion
只需几分钟即可开始探索 Cloud Data Fusion。
探索 Cloud Data Fusion
以下几个部分介绍了 Cloud Data Fusion 的主要组件。
租户项目
构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户单元内部的一个租户项目中预配的。针对 Cloud Data Fusion 实例在其中预配的每个客户项目,系统会创建一个单独的租户项目。该租户项目继承相应客户项目的所有网络和防火墙配置。
Cloud Data Fusion:控制台
Cloud Data Fusion 控制台(也称为控制平面)是一组 API 操作和一个 Web 界面,用于处理 Cloud Data Fusion 实例本身,例如创建、删除、重启和更新实例。
Cloud Data Fusion:Studio
Cloud Data Fusion Studio(也称为数据平面)是一组 REST API 和 Web 界面操作,用于处理流水线和相关工件的创建、执行和管理。
概念
本部分介绍 Cloud Data Fusion 的一些核心概念。
概念 |
说明 |
Cloud Data Fusion 实例 link |
- Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署。要开始使用 Cloud Data Fusion,请通过 Google Cloud 控制台创建 Cloud Data Fusion 实例。
- 您可以在单个 Google Cloud 控制台项目中创建多个实例,且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。
- 根据您的要求和费用限制,您可以创建开发者、基本或企业实例。
- 每个 Cloud Data Fusion 实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。
|
命名空间 link |
命名空间是 Cloud Data Fusion 实例中应用、数据和关联元数据的逻辑分组。您可以将命名空间视为实例的分区。在单个实例中,一个命名空间会独立于另一个命名空间存储实体的数据和元数据。 |
流水线 link |
- 流水线是一种可视化数据设计和流控制方式,用于从各种本地数据源和云数据源提取、转换、融合、聚合和加载数据。
- 通过构建流水线,您可以创建复杂的数据处理工作流,可帮助您解决数据提取、集成和迁移问题。您可以根据需要,使用 Cloud Data Fusion 构建批处理流水线和实时流水线。
- 借助流水线,您可以使用逻辑数据流表达您的数据处理工作流,同时 Cloud Data Fusion 处理需要以物理方式在执行环境中执行的所有功能。
|
流水线节点 link |
- 在 Cloud Data Fusion 网页界面的 Studio 页面上,流水线由一系列节点表示,这些节点在有向无环图 (DAG) 中有序排列,形成单向流。
- 节点代表您使用流水线时可以执行的各种操作,例如从来源读取数据、执行数据转换或将输出写入接收器。您可以通过将来源、转换、接收器和其他节点连接在一起,在 Cloud Data Fusion 网页界面中开发数据流水线。
|
插件 link |
- 插件是可自定义的模块,可用于扩展 Cloud Data Fusion 的功能。
- Cloud Data Fusion 为来源、转换、聚合、接收器、错误收集器、提醒发布器、操作和运行后操作提供插件。
- 插件有时称为“节点”,通常位于 Cloud Data Fusion 网页界面的上下文中。
- 如需探索和访问热门 Cloud Data Fusion 插件,请参阅
Cloud Data Fusion 插件。
|
集线器 link |
在 Cloud Data Fusion 网页界面中,点击 Hub 可浏览插件、示例流水线和其他集成。发布插件的新版本后,该版本会显示在任何兼容的 Hub 实例中。即使实例是在插件发布之前创建的,这条规则也适用。 |
流水线预览 link |
- 借助 Cloud Data Fusion Studio,您可以对数据子集使用 Preview 来测试流水线设计的准确性。
- 处于预览阶段的流水线会在租户项目中运行。
|
流水线执行 link |
- Cloud Data Fusion 会创建临时执行环境来运行流水线。
- Cloud Data Fusion 支持将 Dataproc 用作执行环境
- 当流水线开始运行时,Cloud Data Fusion 会在您的客户项目中预配一个临时 Dataproc 集群,然后在该集群中使用 Spark 执行流水线,最后在流水线执行完以后删除该集群。
- 或者,如果您通过 Terraform 等技术在受控环境中管理 Dataproc 集群,还可以将 Cloud Data Fusion 配置为不预配集群。在此类环境中,您可以针对现有的 Dataproc 集群运行流水线。
|
计算配置文件 link |
- 计算配置文件指定执行流水线的方式和位置。配置文件包含设置和删除流水线的物理执行环境所需的任何信息。
- 例如,计算配置文件包含以下内容:
- 执行预配工具
- 资源(内存和 CPU)
- 节点数下限和上限
- 其他值
- 配置文件由名称标识,并且必须拥有预配工具及其相关配置。配置文件可位于 Cloud Data Fusion 实例级别或命名空间级别。
- Cloud Data Fusion 的默认计算配置文件为“自动扩缩”。
|
可重复使用的流水线 link |
- 借助 Cloud Data Fusion 中可重复使用的数据流水线,您可以创建单个流水线,将数据集成模式应用于各种使用情形和数据集。
- 可重复使用的流水线会在执行时设置流水线的大部分配置,而不是在设计时对其进行硬编码,从而提高了可管理性。
|
触发器 link |
- Cloud Data Fusion 支持在数据流水线(称为下游流水线)上创建触发器,使其在一个或多个不同流水线(称为上游流水线)完成后运行。您可以选择下游流水线的运行时间,例如上游流水线运行成功、失败、停止或它们的任意组合时。
- 触发器在以下情况下非常有用:
- 清理一次数据,然后将其提供给多个下游流水线。
- 在流水线之间共享信息,例如运行时参数和插件配置。这称为载荷配置。
- 拥有一组可使用小时/天/周/月的数据运行的动态流水线,而不是使用每次运行时都必须更新的静态流水线。
|
Cloud Data Fusion 资源
探索 Cloud Data Fusion 资源:
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-14。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-14。"],[],[]]