Um aprovisionador é responsável por criar e destruir o cluster na nuvem onde o pipeline é executado. Os diferentes aprovisionadores são capazes de criar diferentes tipos de clusters em várias nuvens.
Cada aprovisionador expõe um conjunto de definições de configuração que controlam o tipo de cluster criado para uma execução. Por exemplo, os aprovisionadores do Dataproc e do Amazon EMR têm definições de tamanho do cluster. Os aprovisionadores também têm definições para as credenciais necessárias para comunicar com as respetivas nuvens e aprovisionar os nós de computação necessários.
Aprovisionadores suportados no Cloud Data Fusion
O Cloud Data Fusion suporta os seguintes aprovisionadores:
- Dataproc
- Um serviço na nuvem rápido, fácil de usar e totalmente gerido para executar clusters do Apache Spark e do Apache Hadoop.
- Amazon Elastic MapReduce (EMR)
- Oferece uma framework Hadoop gerida que processa grandes quantidades de dados em instâncias do Amazon EC2 dinamicamente escaláveis.
- Hadoop remoto
- Executa tarefas num cluster Hadoop pré-existente, no local ou na nuvem.