Cloud Data Fusion 中的预配工具

预配工具负责创建和拆解执行流水线的云集群。不同的预配工具能够在各种云端创建不同类型的集群。

每个预配工具都会公开一组配置设置,用于控制为运行作业创建的集群类型。例如,Dataproc 和 Amazon EMR 预配工具具有集群大小设置。预配工具还对与各自的云通信并预配所需的计算节点所需的凭据进行了设置。

Cloud Data Fusion 中支持的预配工具

Cloud Data Fusion 支持以下预配工具:

Dataproc
快速、易用的全托管式云服务,用于运行 Apache Spark 和 Apache Hadoop 集群。
Amazon Elastic MapReduce (EMR)
提供托管式 Hadoop 框架,以便在动态可伸缩的 Amazon EC2 实例中处理大量数据。
远程 Hadoop
在预先存在的 Hadoop 集群(本地或云端)上运行作业。