Pipeline für einen vorhandenen Dataproc-Cluster ausführen

Auf dieser Seite wird beschrieben, wie Sie in Cloud Data Fusion eine Pipeline mit einem vorhandenen Dataproc-Cluster ausführen.

Cloud Data Fusion erstellt standardmäßig sitzungsspezifische Cluster für jede Pipeline: Der Cluster erstellt zu Beginn der Pipelineausführung einen Cluster und löscht ihn anschließend wieder. Bei diesem Verhalten können Sie Kosten sparen, da Ressourcen nur bei Bedarf erstellt werden. In den folgenden Szenarien ist dieses Standardverhalten jedoch möglicherweise nicht erwünscht:

  • Wenn die Zeit, die zum Erstellen eines neuen Clusters für jede Pipeline benötigt wird, für Ihren Anwendungsfall untragbar ist.

  • Wenn Ihre Organisation die Cluster-Verwaltung zentral verwalten muss, z. B. wenn Sie bestimmte Richtlinien für alle Dataproc-Cluster durchsetzen möchten.

In diesen Szenarien führen Sie mit den folgenden Schritten Pipelines für einen vorhandenen Cluster aus.

Hinweise

Sie benötigen Folgendes:

Mit vorhandenem Cluster verbinden

In Cloud Data Fusion Version 6.2.1 und höher können Sie eine Verbindung zu einem vorhandenen Dataproc-Cluster herstellen, wenn Sie ein neues Compute Engine-Profil erstellen.

  1. Rufen Sie die Instanz auf:

    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie auf Systemadministrator.

  3. Klicken Sie auf den Tab Konfiguration.

  4. Klicken Sie auf System-Computing-Profile.

  5. Klicken Sie auf Neues Profil erstellen. Eine Seite mit Bereitstellern wird geöffnet.

  6. Klicken Sie auf Vorhandener Dataproc.

  7. Geben Sie die Profil-, Cluster- und Monitoringinformationen ein.

  8. Klicken Sie auf Erstellen.

Pipeline für die Verwendung des benutzerdefinierten Profils konfigurieren

  1. Rufen Sie die Instanz auf:

    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.

      Zur Seite „VM-Instanzen“

  2. Rufen Sie Ihre Pipeline auf der Seite Studio auf.

  3. Klicken Sie auf Konfigurieren.

  4. Klicken Sie auf Compute-Konfiguration.

  5. Klicken Sie auf das Profil, das Sie erstellt haben.

    Benutzerdefiniertes Profil verwenden.
    Abbildung 1: Benutzerdefiniertes Profil anklicken
  6. Pipeline ausführen. Er wird für den vorhandenen Dataproc-Cluster ausgeführt.

Nächste Schritte