Auf dieser Seite wird beschrieben, wie Sie Dataproc-Cluster für Ihre Pipelineausführungen in Cloud Data Fusion wiederverwenden. Weitere Informationen finden Sie unter Wann sollten Cluster wiederverwendet werden? und Pipeline für einen vorhandenen Dataproc-Cluster ausführen.
Hinweise
- Sie benötigen eine Cloud Data Fusion-Instanz in Version 6.5.0 oder höher.
Wiederverwendung von Clustern aktivieren
Sie können Cluster in einem neuen Compute-Profil oder in einem Profil wiederverwenden, das in einer bereitgestellten Pipeline verwendet wurde.
Wiederverwendung von Clustern in einem neuen Profil aktivieren
Rufen Sie die Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Klicken Sie auf Systemadministrator > Konfiguration > System-Computing-Profile.
Klicken Sie auf Neues Profil erstellen.
Wählen Sie den Dataproc-Bereitsteller aus.
Geben Sie im Fenster Profil für Dataproc erstellen die Details zu Ihrem Cluster ein:
- Geben Sie in den Feldern Profillabel und Profilname einen Namen zur Identifizierung des Profils ein, z. B.
execution_compute-profile
. - Beschreiben Sie im Feld Beschreibung den Zweck des Profils, z. B.
Profile used for pipeline execution
. - Geben Sie in das Feld Maximale Inaktivitätszeit einen Wert ein. Weitere Informationen finden Sie unter Maximale Inaktivitätszeit festlegen.
- Setzen Sie das Feld Löschen des Clusters überspringen auf
True
. Weitere Informationen finden Sie unter Wann sollten Cluster wiederverwendet werden?. - Optional: Konfigurieren Sie weitere optionale Felder.
- Klicken Sie auf Erstellen.
- Geben Sie in den Feldern Profillabel und Profilname einen Namen zur Identifizierung des Profils ein, z. B.
Wiederverwendung von Clustern in einer bereitgestellten Pipeline aktivieren
Rufen Sie die Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Klicken Sie auf Liste.
Klicken Sie auf den Tab Bereitgestellt und dann auf einen Pipelinenamen. Die bereitgestellte Pipeline wird auf der Seite Studio in der Weboberfläche von Cloud Data Fusion geöffnet.
Klicken Sie auf Konfigurieren.
Gehen Sie im Fenster Compute-Konfiguration zum ausgewählten Profil und klicken Sie auf Anpassen.
Geben Sie im daraufhin angezeigten Fenster die folgenden Werte ein:
- Geben Sie in das Feld Maximale Inaktivitätszeit einen Wert ein. Weitere Informationen finden Sie unter Maximale Inaktivitätszeit festlegen.
- Legen Sie für Clusterlöschung überspringen den Wert
True
fest. Weitere Informationen finden Sie unter Wann sollten Cluster wiederverwendet werden?.
Klicken Sie auf Fertig.
Nächste Schritte
- Cluster konfigurieren
- Beheben Sie das Löschen von Clustern.