Provisionadores no Cloud Data Fusion

Um provisionador é responsável por criar e excluir o cluster de nuvem onde o pipeline é executado. Provisionadores diferentes podem criando tipos diferentes de clusters em várias nuvens.

Cada provisionador expõe um conjunto de definições de configuração que controlam o tipo de um cluster criado para uma execução. Por exemplo, o Dataproc e os provisionadores do Amazon EMR têm configurações de tamanho de cluster. Os provisionadores também têm as configurações das credenciais necessárias para se comunicar com as respectivas nuvens provisionar os nós de computação necessários.

Provisionadores com suporte no Cloud Data Fusion

O Cloud Data Fusion é compatível com os provisionadores a seguir:

Dataproc
Um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar o Apache Spark e clusters do Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornece um framework Hadoop gerenciado que processa grandes quantidades de dados em instâncias do Amazon EC2 com escalonamento dinâmico.
Hadoop remoto
Executa jobs em um cluster preexistente do Hadoop, no local ou no nuvem.