Provisioner in Cloud Data Fusion

Un provisioner è responsabile della creazione e del teardown del cluster cloud dove viene eseguita la pipeline. Provisioner diversi sono in grado di creare diversi tipi di cluster su vari cloud.

Ogni provider espone un insieme di impostazioni di configurazione che controllano il tipo di cluster creato per un'esecuzione. Ad esempio, i provisioner Dataproc e Amazon EMR hanno impostazioni relative alle dimensioni dei cluster. I provisioning hanno anche impostazioni per le credenziali necessarie per comunicare con i rispettivi cloud e eseguire il provisioning dei nodi di calcolo richiesti.

Provisioner supportati in Cloud Data Fusion

Cloud Data Fusion supporta i seguenti provisioner:

Dataproc
Un servizio cloud completamente gestito, veloce e facile da utilizzare per l'esecuzione di cluster Apache Spark e Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornisce un framework Hadoop gestito che elabora grandi quantità di dati su istanze Amazon EC2 scalabili dinamicamente.
Hadoop remoto
Esegue job su un cluster Hadoop preesistente, on-premise o nel cloud.