Cloud Data Fusion 中的预配程序

预配程序负责创建和拆解用于执行流水线的云集群。不同的预配程序可以在不同的云上创建不同类型的集群。

每个预配程序都会公开一组配置设置,用于控制为运行作业创建的集群类型。例如,Dataproc 和 Amazon EMR 预配程序具有集群大小设置。配置程序还具有与各自云端通信和预配所需计算节点所需凭据的设置。

Cloud Data Fusion 中受支持的预配程序

Cloud Data Fusion 支持以下预配程序:

Dataproc
一项快速、易用、全代管式云服务,用于运行 Apache Spark 和 Apache Hadoop 集群。
Amazon Elastic MapReduce (EMR)
提供一个托管式 Hadoop 框架,可跨动态可伸缩的 Amazon EC2 实例处理大量数据。
远程 Hadoop
在现有 Hadoop 集群(本地或云端)上运行作业。