Auf dieser Seite wird beschrieben, wie Sie in Cloud Data Fusion eine Pipeline mit einem vorhandenen Dataproc-Cluster ausführen.
Cloud Data Fusion erstellt standardmäßig sitzungsspezifische Cluster für jede Pipeline: Der Cluster erstellt zu Beginn der Pipelineausführung einen Cluster und löscht ihn anschließend wieder. Bei diesem Verhalten können Sie Kosten sparen, da Ressourcen nur bei Bedarf erstellt werden. In den folgenden Szenarien ist dieses Standardverhalten jedoch möglicherweise nicht erwünscht:
Wenn die Zeit, die zum Erstellen eines neuen Clusters für jede Pipeline benötigt wird, für Ihren Anwendungsfall untragbar ist.
Wenn Ihre Organisation die Cluster-Verwaltung zentral verwalten muss, z. B. wenn Sie bestimmte Richtlinien für alle Dataproc-Cluster durchsetzen möchten.
In diesen Szenarien führen Sie mit den folgenden Schritten Pipelines für einen vorhandenen Cluster aus.
Hinweise
Sie benötigen Folgendes:
Eine Cloud Data Fusion-Instanz.
Einen vorhandenen Dataproc-Cluster.
Wenn Sie Ihre Pipelines in Cloud Data Fusion Version 6.2 ausführen, verwenden Sie ein älteres Dataproc-Image, das mit Hadoop 2.x ausgeführt wird (z. B. 1.5-debian10), oder ein Upgrade auf die neueste Version von Cloud Data Fusion durchführen.
Mit vorhandenem Cluster verbinden
In Cloud Data Fusion Version 6.2.1 und höher können Sie eine Verbindung zu einem vorhandenen Dataproc-Cluster herstellen, wenn Sie ein neues Compute Engine-Profil erstellen.
Rufen Sie die Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Klicken Sie auf Systemadministrator.
Klicken Sie auf den Tab Konfiguration.
Klicken Sie auf
System-Computing-Profile.Klicken Sie auf Neues Profil erstellen. Eine Seite mit Bereitstellern wird geöffnet.
Klicken Sie auf Vorhandener Dataproc.
Geben Sie die Profil-, Cluster- und Monitoringinformationen ein.
Klicken Sie auf Erstellen.
Pipeline für die Verwendung des benutzerdefinierten Profils konfigurieren
Rufen Sie die Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Rufen Sie Ihre Pipeline auf der Seite Studio auf.
Klicken Sie auf Konfigurieren.
Klicken Sie auf Compute-Konfiguration.
Klicken Sie auf das Profil, das Sie erstellt haben.
Pipeline ausführen. Er wird für den vorhandenen Dataproc-Cluster ausgeführt.
Nächste Schritte
- Cluster konfigurieren
- Beheben Sie das Löschen von Clustern.