Penyedia bertanggung jawab untuk membuat dan menghapus cluster cloud tempat pipeline dijalankan. Penyedia yang berbeda mampu membuat berbagai jenis cluster di berbagai cloud.
Setiap penyedia menampilkan kumpulan setelan konfigurasi yang mengontrol jenis cluster yang dibuat untuk dijalankan. Misalnya, penyedia Dataproc dan Amazon EMR memiliki setelan ukuran cluster. Penyedia juga memiliki setelan untuk kredensial yang diperlukan agar dapat berkomunikasi dengan cloud mereka masing-masing dan menyediakan node komputasi yang diperlukan.
Penyedia yang didukung di Cloud Data Fusion
Cloud Data Fusion mendukung penyediaan berikut:
- Dataproc
- Layanan cloud yang cepat, mudah digunakan, dan terkelola sepenuhnya untuk menjalankan cluster Apache Spark dan Apache Hadoop.
- Amazon Elastic MapReduce (EMR)
- Menyediakan framework Hadoop terkelola yang memproses data dalam jumlah besar di seluruh instance Amazon EC2 yang skalabel secara dinamis.
- Hadoop Jarak Jauh
- Menjalankan tugas di cluster Hadoop yang sudah ada sebelumnya, baik di infrastruktur lokal maupun cloud.