Un provisionneur est chargé de créer et de détruire le cluster cloud où le pipeline est exécuté. Différents approvisionneurs sont capables en créant différents types de clusters sur différents clouds.
Chaque provisionneur expose un ensemble de paramètres de configuration qui contrôlent le type de cluster créé pour une exécution. Par exemple, Dataproc et les approvisionneurs Amazon EMR disposent de paramètres de taille de cluster. Les provisionneurs disposent également de paramètres pour les identifiants requis pour communiquer avec leurs clouds respectifs et provisionner les nœuds de calcul requis.
Fournisseurs compatibles dans Cloud Data Fusion
Cloud Data Fusion est compatible avec les approvisionneurs suivants:
- Dataproc
- Service cloud rapide, facile à utiliser et entièrement géré permettant d'exécuter des clusters Apache Spark et Apache Hadoop.
- Amazon Elastic MapReduce (EMR)
- Fournit un framework Hadoop géré qui traite de vastes quantités de données dans les instances Amazon EC2 évolutives de manière dynamique.
- Hadoop distant
- Exécute des tâches sur un cluster Hadoop préexistant, sur site ou dans le cloud.