Um provisionador é responsável por criar e remover o cluster de nuvem em que o pipeline é executado. Diferentes provisionadores podem criar diferentes tipos de clusters em várias nuvens.
Cada provisionador expõe um conjunto de configurações que controlam o tipo de cluster criado para uma execução. Por exemplo, os provisionadores do Dataproc e do Amazon EMR têm configurações de tamanho de cluster. Os provisionadores também têm configurações para as credenciais necessárias para se comunicar com as respectivas nuvens e provisionar os nós de computação necessários.
Provisionadores com suporte no Cloud Data Fusion
O Cloud Data Fusion é compatível com os provisionadores a seguir:
- Dataproc
- Um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e do Apache Hadoop.
- Amazon Elastic MapReduce (EMR)
- Fornece um framework Hadoop gerenciado que processa grandes quantidades de dados em instâncias do Amazon EC2 com escalonamento dinâmico.
- Hadoop remoto
- Executa jobs em um cluster do Hadoop preexistente, no local ou na nuvem.