Ein Bereitsteller ist für das Erstellen und Herunterfahren des Cloud-Clusters verantwortlich, in dem die Pipeline ausgeführt wird. Mit verschiedenen Anbietern können verschiedene Arten von Clustern in verschiedenen Clouds erstellt werden.
Jeder Bereitsteller stellt eine Reihe von Konfigurationseinstellungen bereit, mit denen der Clustertyp gesteuert wird, der für einen Durchlauf erstellt wird. So haben beispielsweise die Dataproc- und Amazon EMR-Bereitsteller Einstellungen für die Clustergröße. Bereitstalter haben auch Einstellungen für die Anmeldedaten, die für die Kommunikation mit ihren jeweiligen Clouds und die Bereitstellung der erforderlichen Rechenknoten erforderlich sind.
Unterstützte Bereitsteller in Cloud Data Fusion
Cloud Data Fusion unterstützt die folgenden Bereitsteller:
- Dataproc
- Schneller, nutzerfreundlicher und vollständig verwalteter Cloud-Dienst zum Ausführen von Apache Spark- und Apache Hadoop-Clustern.
- Amazon Elastic MapReduce (EMR)
- Bietet ein verwaltetes Hadoop-Framework, mit dem große Datenmengen über dynamisch skalierbare Amazon EC2-Instanzen verarbeitet werden.
- Remote Hadoop
- Führt Jobs auf einem vorhandenen Hadoop-Cluster aus, entweder lokal oder in der Cloud.