Bereitsteller in Cloud Data Fusion

Ein Bereitsteller ist für das Erstellen und Löschen des Cloud-Clusters verantwortlich, auf dem die Pipeline ausgeführt wird. Verschiedene Bereitsteller sind in der Lage, verschiedene Arten von Clustern in verschiedenen Clouds zu erstellen.

Jeder Bereitsteller stellt eine Reihe von Konfigurationseinstellungen zur Verfügung, die den für eine Ausführung erstellten Clustertyp steuern. Die Bereitsteller von Dataproc und Amazon EMR haben beispielsweise Einstellungen für die Clustergröße. Bereitsteller haben auch Einstellungen für die Anmeldedaten, die für die Kommunikation mit ihren jeweiligen Clouds und die Bereitstellung der erforderlichen Compute-Knoten erforderlich sind.

Unterstützte Bereitsteller in Cloud Data Fusion

Cloud Data Fusion unterstützt die folgenden Bereitsteller:

Dataproc
Ein schneller, nutzerfreundlicher und vollständig verwalteter Cloud-Dienst zum Ausführen von Apache Spark- und Apache Hadoop-Clustern.
Amazon Elastic MapReduce (EMR)
Bietet ein verwaltetes Hadoop-Framework, das große Datenmengen auf dynamisch skalierbaren Amazon EC2-Instanzen verarbeitet.
Remote- Hadoop
Jobs werden auf einem bereits vorhandenen Hadoop-Cluster entweder lokal oder in der Cloud ausgeführt.