Provisionadores en Cloud Data Fusion

Un aprovisionador se encarga de crear y eliminar el clúster en la nube en el que se ejecuta la canalización. Cada provisionador puede crear diferentes tipos de clústeres en varias nubes.

Cada provisioner expone un conjunto de ajustes de configuración que controlan el tipo de clúster que se crea para una ejecución. Por ejemplo, los aprovisionadores de Dataproc y Amazon EMR tienen ajustes de tamaño de clúster. Los aprovisionadores también tienen ajustes para las credenciales necesarias para comunicarse con sus respectivas nubes y aprovisionar los nodos de computación necesarios.

Provisionadores admitidos en Cloud Data Fusion

Cloud Data Fusion admite los siguientes provisionadores:

Dataproc
Un servicio en la nube rápido, fácil de usar y totalmente gestionado para ejecutar clústeres de Apache Spark y Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Proporciona un framework de Hadoop gestionado que procesa grandes cantidades de datos en instancias de Amazon EC2 escalables de forma dinámica.
Hadoop remoto
Ejecuta tareas en un clúster de Hadoop preexistente, ya sea on-premise o en la nube.