预配程序负责创建和拆解用于执行流水线的云集群。不同的预配工具能够 在不同云端创建不同类型的集群
每个预配工具都会公开一组可控制其类型的配置设置 为运行所创建的集群例如,Dataproc 和 Amazon EMR 预配工具都有集群大小设置。预配者还拥有 与各自的云通信所需的凭据的设置 预配所需的计算节点
Cloud Data Fusion 中支持的预配程序
Cloud Data Fusion 支持以下预配程序:
- Dataproc
- 快速、易用、全托管式用于运行 Apache Spark 的云服务 和 Apache Hadoop 集群。
- Amazon Elastic MapReduce (EMR)
- 提供一个托管式 Hadoop 框架,可跨动态可伸缩的 Amazon EC2 实例处理大量数据。
- 远程 Hadoop
- 在现有 Hadoop 集群(本地或云端)上运行作业。