Provisionadores no Cloud Data Fusion

Um provisionador é responsável por criar e remover o cluster de nuvem em que o pipeline é executado. Diferentes provisionadores podem criar diferentes tipos de clusters em várias nuvens.

Cada provisionador expõe um conjunto de configurações que controlam o tipo de cluster criado para uma execução. Por exemplo, os provisionadores do Dataproc e do Amazon EMR têm configurações de tamanho de cluster. Os provisionadores também têm configurações para as credenciais necessárias para se comunicar com as respectivas nuvens e provisionar os nós de computação necessários.

Provisionadores com suporte no Cloud Data Fusion

O Cloud Data Fusion é compatível com os provisionadores a seguir:

Dataproc
Um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e do Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornece um framework Hadoop gerenciado que processa grandes quantidades de dados em instâncias do Amazon EC2 com escalonamento dinâmico.
Hadoop remoto
Executa jobs em um cluster do Hadoop preexistente, no local ou na nuvem.