Un provisioner è responsabile della creazione e dell'eliminazione del cluster cloud in cui viene eseguita la pipeline. Provisioner diversi sono in grado di creando diversi tipi di cluster su vari cloud.
Ogni provider espone un insieme di impostazioni di configurazione che controllano il tipo di cluster creato per un'esecuzione. Ad esempio, lo strumento Dataproc e i provisioner Amazon EMR hanno impostazioni sulle dimensioni del cluster. I provisioning hanno anche impostazioni per le credenziali necessarie per comunicare con i rispettivi cloud e eseguire il provisioning dei nodi di calcolo richiesti.
Provisioner supportati in Cloud Data Fusion
Cloud Data Fusion supporta i seguenti provisioner:
- Dataproc
- Un servizio cloud completamente gestito, veloce e facile da usare per eseguire Apache Spark e i cluster Apache Hadoop.
- Amazon Elastic MapReduce (EMR)
- Fornisce un framework Hadoop gestito che elabora grandi quantità di dati su istanze Amazon EC2 scalabili dinamicamente.
- Hadoop remoto
- Esegue job su un cluster Hadoop preesistente, on-premise o nel cloud.