Ein Bereitsteller ist für das Erstellen und Herunterfahren des Cloud-Clusters verantwortlich, in dem die Pipeline ausgeführt wird. Verschiedene Bereitsteller sind in der Lage, zum Erstellen verschiedener Clustertypen in verschiedenen Clouds.
Jeder Bereitsteller stellt eine Reihe von Konfigurationseinstellungen zur Verfügung, die den Typ steuern des Clusters, der für eine Ausführung erstellt wurde. So haben beispielsweise die Dataproc- und Amazon EMR-Bereitsteller Einstellungen für die Clustergröße. Bereitstalter haben auch Einstellungen für die Anmeldedaten, die für die Kommunikation mit ihren jeweiligen Clouds und die Bereitstellung der erforderlichen Rechenknoten erforderlich sind.
Unterstützte Bereitsteller in Cloud Data Fusion
Cloud Data Fusion unterstützt die folgenden Bereitsteller:
- Dataproc
- Ein schneller, nutzerfreundlicher und vollständig verwalteter Cloud-Dienst zum Ausführen von Apache Spark und Apache Hadoop-Cluster.
- Amazon Elastic MapReduce (EMR)
- Bietet ein verwaltetes Hadoop-Framework, mit dem große Datenmengen über dynamisch skalierbare Amazon EC2-Instanzen verarbeitet werden.
- Remote Hadoop
- Ausführung von Jobs auf einem bereits vorhandenen Hadoop-Cluster, entweder lokal oder im Cloud.