Aprovisionadores no Cloud Data Fusion

Um aprovisionador é responsável por criar e destruir o cluster na nuvem onde o pipeline é executado. Os diferentes aprovisionadores são capazes de criar diferentes tipos de clusters em várias nuvens.

Cada aprovisionador expõe um conjunto de definições de configuração que controlam o tipo de cluster criado para uma execução. Por exemplo, os aprovisionadores do Dataproc e do Amazon EMR têm definições de tamanho do cluster. Os aprovisionadores também têm definições para as credenciais necessárias para comunicar com as respetivas nuvens e aprovisionar os nós de computação necessários.

Aprovisionadores suportados no Cloud Data Fusion

O Cloud Data Fusion suporta os seguintes aprovisionadores:

Dataproc
Um serviço na nuvem rápido, fácil de usar e totalmente gerido para executar clusters do Apache Spark e do Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Oferece uma framework Hadoop gerida que processa grandes quantidades de dados em instâncias do Amazon EC2 dinamicamente escaláveis.
Hadoop remoto
Executa tarefas num cluster Hadoop pré-existente, no local ou na nuvem.