Penyedia di Cloud Data Fusion

Penyedia bertanggung jawab untuk membuat dan menghapus cluster cloud tempat pipeline dijalankan. Penyedia yang berbeda dapat membuat berbagai jenis cluster di berbagai cloud.

Setiap penyedia mengekspos serangkaian setelan konfigurasi yang mengontrol jenis cluster yang dibuat untuk dijalankan. Misalnya, penyedia Dataproc dan Amazon EMR memiliki setelan ukuran cluster. Penyedia juga memiliki setelan untuk kredensial yang diperlukan untuk berkomunikasi dengan cloud masing-masing dan menyediakan node komputasi yang diperlukan.

Penyedia yang didukung di Cloud Data Fusion

Cloud Data Fusion mendukung penyedia berikut:

Dataproc
Layanan cloud yang cepat, mudah digunakan, dan terkelola sepenuhnya untuk menjalankan cluster Apache Spark dan Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Menyediakan framework Hadoop terkelola yang memproses data dalam jumlah besar di seluruh instance Amazon EC2 yang skalabel secara dinamis.
Hadoop Jarak Jauh
Menjalankan tugas di cluster Hadoop yang sudah ada, baik di lokal maupun di cloud.